Analyse de données avec Python #DataAnalytics #datascience

Thème :

Traiter : réseaux et outils, outils et techniques de gestion documentaire, traitement, analyse, indexation et cartographie de l'information

Tags :

langage programmation

Objectifs

Cette formation propose une initiation à la programmation Python prioritairement pensée pour les chercheurs•ses en sciences humaines et sociales (SHS) autour des usages en SHS.

Python est un langage de programmation simple, libre, multi-plateforme, pédagogique, bénéficiant d'une communauté d'utilisateurs•rices croissante tant dans le domaine universitaire que le secteur privé. Avec la multiplication des données numériques dans les sciences humaines et sociales (SHS), le recours à l'informatique devient incontournable tant pour la collecte, la mise en forme, ou le traitement des données. Si une partie de ces traitements sont intégrés dans des logiciels dédiés, le langage Python permet d’introduire de la souplesse et de l’adaptation dans le traitement des données.

L’utilisation du langage Python permet ainsi à la fois de réaliser les traitements statistiques habituels des SHS tout en ouvrant aux nouveaux usages liés à l'automatisation des tâches informatiques, le traitement des grands corpus des humanités numériques ou encore la collecte de données sur les réseaux sociaux. Pour cette raison, cette formation présente Python avant tout comme un outil pour le script scientifique, et non pas dans une perspective d’ingénierie logicielle. S’il est évidemment possible d’utiliser Python pour développer des applications, un de ses usages pratiques au quotidien est un rôle de « liant » (ou de « colle ») pour traiter les données et faire le lien entre des logiciels déjà existants. D’ailleurs, plusieurs logiciels (QGIS, SPSS, …) permettent d’introduire du script Python dans les traitements pour compléter les opérations.

Par ailleurs, l’apprentissage des bases de Python permet non seulement de renforcer sa culture informatique, ouvrant ce faisant la voie à de nouvelles stratégies d’analyses, mais aussi d’envisager différemment le rapport aux données, la conceptualisation mais aussi la collaboration avec le partage du code et les enjeux de reproductibilité des analyses. Python participe, aux côtés d’autres logiciels et langages, à la construction du code libre et d’une recherche ouverte.

Programme

​Objectifs de la formation

  • Comprendre les forces de Python pour le script scientifique en SHS

  • Maîtriser les bases du langage Python et la présentation du Notebook Jupyter

  • Se familiariser de la librairie Pandas pour manipuler des données de type tableaux

  • Réaliser des statistiques « classiques » avec Python

  • Connecter les traitements avec des sources de données externes (API) et des logiciels (par exemple, Gephi pour l’analyse de réseaux).

Déroulement

La formation est prévue sur une journée en présentiel.

- matin : introduction à la programmation Python (environ 3 heures 30)

- après-midi : traitements de données sous forme de tableaux et statistiques (environ 3 heures 30)

Prérequis

La formation est pensée pour des chercheurs•ses n’ayant pas de notions de programmation et visant à comprendre à la fois la logique et les usages possibles de Python dans leur activité. Avoir quelques notions de script (dans un autre langage, par exemple R) est utile mais non nécessaire. Chacun•e est responsable d'amener son ordinateur. Nous suggérons à chacun d’installer en amont Anaconda (https://www.anaconda.com/) avant la formation, qui permet d’avoir l’ensemble de l’environnement installé. Une solution utilisant le Cloud sera cependant possible.

Public concerné

Enseignant du supérieur, chercheur Doctorant