Analyse de données avec R

Contextualisation et présentation de R et Rstudio

Séance ElementR

14 octobre 2022

Logiciels d’analyse statistique vs R

SAS, SPAD, SPSS… et R


Depuis le début des années 2000, un nouveau logiciel gagne en importance et s’impose progressivement comme une référence, au même titre que les trois principaux logiciels d’analyse de données qui dominent le marché.

On peut imaginer que les utilisateurs de logiciels statistiques vont progressivement converger vers R

Les logiciels propriétaires sont…

Payants

Licence SPSS Base edition

Pas multi-plateforme



Logiciel/Système Windows MacOS Linux BSD Autres Unix
SAS oui terminé oui non oui
SPAD oui non non non non
SPSS oui oui non non non
Stata oui oui oui non non

https://fr.wikipedia.org/wiki/Comparaison_des_logiciels_de_statistiques

Spécialisés


    • SPSS : orienté vers les sciences sociales
    • SPAD : orienté vers la prise de décision
    • Stata : orienté pour les économistes et épidémilogistes
    • SAS : assez complet, limité dans certains domaines (ex: graphique)


Ils offrent peu ou pas d’analyse de réseau, d’analyse de séquence, de léxicométrie (sauf SPAD)… Et très peu de fonctionnalités de valorisation.

Limités

La gestion centralisée induit des limites de :

    • Durabilité
    • Liberté d’utilisation
    • Compatibilité avec d’autres logiciels (format des données)
    • Mise à jour et compatibilité entre versions
    • Développement de nouvelles fonctionnalités
    • Langues disponibles (logiciel et aide)
    • Ressources d’information disponibles

Des obstacles pour :


    • La formation
    • L’utilisation
    • Le travail collaboratif
    • Le travail interdisciplinaire
    • Le travail reproductible


C’est pour cela que l’on préfère R !

Frères ennemis


Deux langages très utilisés pour l’analyse et le traitement des données.
Très souvent comparés pour leurs fonctionnalités semblables

Le choix entre R et Python dépend surtout de
Qui je suis et de ce que je veux faire ?

Deux communautés

différentes…

    • Documentation riche et structurée
    • Communauté accessible et inclusive
    • Discipline : analyse de données
    • Métiers : recherche & développement


Des spécificités

R a autant de cerveau…

    • Plus facile à prendre en main (Rstudio)
    • Analyse statistique
    • Représentation graphique
    • Valorisation (markdown, application…)

Pour les utilisateurs moins avancés en programmation
spécialisés dans l’analyse statistique

Histoire de R


R se base sur le langage de programmation S, créé en 1988

    • 1992: R. Gentleman et R. Ihaka démarrent le développement (projet de recherche)
    • 1993: Première version binaire de R publiée sur Statlib
    • 1995: R est distribué en tant que logiciel open source, sous licence GPL2
    • 1997: Création du R core group. Création du CRAN (par K. Jornik et F. Leisch)
    • 1999: Création du site web de R (r-project.org) . Première réunion physique de la R core team
    • 2000: R 1.0.0 est publié. John Chambers (créateur du langage S), rejoint la R Core team
    • 2001: Création de R News (qui deviendra R Journal)
    • 2003: Création de la R Foundation
    • 2004: Première conférence UseR! (Vienne)
    • 2004: R 2.0.0 est publié
    • 2009: Première édition du R Journal
    • 2013: R 3.0.0 est plublié
    • 2015: Création du R Consortium (avec la participation de la R Foundation)
    • 2020: R 4.0.0 est plublié

https://blog.revolutionanalytics.com/2017/10/updated-history-of-r.html

Soutiens importants


Résultat de 30 années de recherche & développement


Des acteurs économiques importants financent le développement de R : Microsoft, Google, Oracle, Esri


https://www.r-consortium.org/members.

Libre et multi-plateforme


    • R est un logiciel/langage libre (open source)


    • Il fait partie de la liste des paquets GNU GPLv3


    • R est multi-plateforme


Logiciel/Sytsème Windows MacOS Linux BSD Autres Unix
R oui oui oui oui oui

Développement illimité


R propose 2954 fonctions standard (primitives)

Sur ce socle commun peut s’ajouter de nombreux packages, mis à disposition sur le
Comprehensive R Archive Network (CRAN). Ex :

    • FactoMineR - analyse multidimensionnelle de données
    • quanteda - analyse textuelle
    • igraph - analyse de réseau
    • sf - manipulation de données spatiales vectorielles
    • terra - manipulation de données spatiales (raster et vecteur)
    • shiny - applicacions web interactives


R a une structure modulaire qui offre toute une gamme d’applications possibles. Son expansion n’est limitée que par les contributions.

Développement illimité


Nombre de packages disponibles sur le CRAN

Polyvalent


Les packages mises à disposition permettent d’opérer sur l’ensemble de la chaîne de traitement. De la collecte des données à la valorisation des résultats (gaphique, document, site web…)


Cette polyvalence permet à R de compléter, de concurrencer voire de remplacer toute une série de logiciels existants

Polyvalent


Grande communauté d’utilisateurs

https://benubah.github.io/r-community-explorer/rugs.html

…Et d’entreprises

https://techvidvan.com/tutorials/career-in-r-programming/

Fiable


    • Financement d’acteurs économiques (R Consortium)
    • Communauté impliquée et importante
    • Le fonctionnement d’un logiciel open source est vérifiable
    • Tous les logiciels ont des failles, mais…


L’information circule vite dans les communautés des logiciels libres.

Travaux reproductibles


    • Un seul logiciel pour toutes les étapes de traitement
    • Les travaux sont facilement archivés et partagés (script)
    • Il suffit d’un ordinateur pour les reproduire….


La recherche reproductible, c’est le partage et la transparence !

Inconvénients


    • R est un langage de programmation


    • Son apprentissage est long et parfois douloureux


    • R et ses ressources clefs sont en anglais


    • L’ interface de R est très rudimentaire, mais…

Qu’est-ce que Rstudio?


RStudio (aujourd’hui Posit) est une entreprise qui développe et publie des logiciels et des services basés sur R. C’est l’acteur le plus important de la communauté.

Rstudio a développé plusieurs packages de référence. Ex :

Rstudio propose également un Environnement de Développement Intégré (IDE), qui facilite énormément l’utilisation de R.

Interface rudimentaire de R

Interface de R sur Windows

IDE Rstudio

IDE Rstudio

Autres points forts


    • Fonctionnalités clic-bouton
    • Raccourcis clavier
    • Auto-complétion
    • Création de projet


Parce que c’est simple, complet et en constante évolution

Utilisez l’environnement RStudio!

Installation

Installer R


L’installation de R et de l’IDE Rstudio se fait comme n’importe quel logiciel. Connectez-vous au CRAN pour télécharger R.


https://cran.r-project.org/

Installer l’IDE Rstudio

Téléchargez la version “Desktop” (gratuite) sur le site de Rstudio

https://rstudio.com/products/rstudio/download/

c’est parti !

Lancez Rstudio (pas R) pour commencer.

Besoin d’aide ?


De nombreuses ressources sont référencées sur…


rzine.fr

Diaporama réalisé avec…









R version 4.2.1 (2022-06-23)

Diapositives libres (CC BY-SA 4.0)


https://gitlab.huma-num.fr/elementr/session_1/Presentation_R


  • Diaporama consultable en ligne via GitLab :

https://elementr.gitpages.huma-num.fr/session_1/Presentation_R/#/