4  Concevoir une feuille de données

Avant d’importer notre première feuille de données en R, quelques conseils pour concevoir au mieux vos propres feuilles de données et éviter les problèmes.

La plupart des conseils ci-dessous sont facultatifs, mais les suivre (si vous le pouvez) vous évitera bien des soucis au moment d’importer vos données en R.

4.1 Format de fichier

Utilisez des fichiers dans des formats de texte brut (.csv, .txt) et évitez les formats “riches” (.ods, .xls ou .xlsx). Il reste tout à fait possible d’importer des fichiers Excel avec R (par exemple avec les packages {readxl} ou {openxlsx}), mais utiliser des formats ouverts constitue indiscutablement une meilleure pratique par de nombreux aspects (Desquilbet et al., 2019). Le format CSV est le format canonique pour l’analyse de données en R.

4.2 Mise en forme

  • Corollaire du point précédent : l’emploi d’un format CSV ou TXT ne le permet de toute façon pas, mais pas n’employez pas (trop) de mise en forme (gras, couleurs, etc.), et surtout, pas de fusion de cellules dans votre fichier de données.

  • Les individus sont disposés en lignes, les variables en colonnes. La correspondance doit être parfaite : chaque individu = une et une seule ligne (sauf éventuellement cas particulier des données longitudinales).

  • Si votre fichier comporte une colonne d’identifiant unique pour les individus, veillez à ce qu’elle ne comporte pas de doublons.

  • Limitez ou évitez l’emploi de caractères spéciaux, et en particulier des caractères ayant un sens réservé en R (#, guillemets doubles ou simples). Il reste possible d’importer correctement en R de tels fichiers, mais cela nécessite alors une attention accrue et des vérifications minutieuses.

  • Il est préférable d’indiquer les données manquantes par un code unique pour tout le fichier. (Choix usuel : laisser la case vide.) Autrement dit, évitez si possible d’indiquer parfois ? pour une valeur manquante, parfois NA, parfois une case vide, etc.

  • Réciproque : ne laissez pas de cases vides sans raison. En particulier, ne laissez pas pour “aérer les données” de lignes vides (cela serait pris en compte comme un individu avec 100% de données manquantes) ou de colonnes vides (cela serait pris en compte comme un individu avec 100% de données manquantes).

  • Le séparateur décimal (point ou virgule) doit impérativement être unique pour tout le fichier. Autrement dit, n’écrivez pas vos nombres décimaux 25.5 dans certains colonnes, et 24,7 dans d’autres colonnes.

  • Lorsque c’est possible, utiliser des intitulés de variables courts et sans espaces (utiliser des underscores à la place). Le nom des variables doit occuper la première ligne du fichier (et elle seule).

4.3 Exemples

Figure 4.1: Un exemple de mise en forme correcte d’une feuille de données (au format CSV) pour R.
Figure 4.2: Un exemple de mise en forme hautement problématique pour un import avec R (pourquoi ?).