12 Application sur un nouveau jeu de données
On se propose ici de reprendre l’ensemble des notions présentées dans les chapitres précédents (et d’en introduire quelques unes de plus) sur un nouveau jeu de données : le Goldman Data Set (Auerbach, s. d.).
Le PDF suivant propose une trame d’analyse de ce jeu de données.
12.1 Indications
En cas de besoin seulement : ne vous spoilez pas !
Il peut sembler préférable d’utiliser le fichier en format CSV plutôt que le fichier XLS(X).
Attention : aucune colonne de ce jeu de données ne peut servir d’identifiant unique. Vous ne pouvez pas donc spécifier d’argument
row.names = ...dans la fonctionread.csv()(ne mettez pas cet argument du tout).Le fichier CSV possède un encodage Macintosh qui pourra poser problème pour les caractères accentués. Consultez l’aide de la fonction
read.csv(), et en particulier la description de l’argumentfileEncoding.
Consulter la Section 7.6 de ce site web.
Pour cette question (et la suivante), il y aura un choix philosophique à faire : souhaitez-vous écraser définitivement le dataframe initial et le remplacer par un sous-tableau ? Ou souhaitez-vous plutôt créer un nouvel objet pour le sous-tableau, en laissant le dataframe initial inchangé ? Il n’y a pas de bonne ou de mauvaise solution en toute généralité, et les deux approches se défendent ici.
Toutefois, si vous créez un nouvel objet plutôt que d’écraser le dataframe initial, attention à bien repartir de ce nouvel objet pour les questions suivantes !
Consulter la Section 7.4 de ce site web.
En particulier, prêtez attention à l’opérateur %in%.
Si vous utilisez la fonction
levels()(donc la solution “R-base”), regardez dans la documentation de cette fonction la syntaxe généralelevels(x) <- value, et lisez attentivement le second paragraphe de la section “Details”. Regardez aussi les exemples donnés en bas de la page de documentation : vous y trouverez peut-être des éléments utiles.Si vous utilisez la fonction
fct_recode()du package{forcats}, regardez attentivement les exemples donnés dans la documentation de cette fonction. De plus, on vous indique dans la documentation que “Levels can be removed by naming them NULL” : c’est un point crucial ici.
Consultez la Section 11.6 de ce site web.
Mais avant ça, il faudra déjà vous restreindre aux variables numériques seulement (e.g., créer un nouvel objet num qui n’est composé que des colonnes numériques du dataframe initial). Nous l’avons fait à plusieurs reprises, par exemple en Section 7.6.
Consultez la Section 10.4, en particulier la partie sur la fonction xyplot() et le package {lattice}.
Consultez la Section 7.3.