Python (3) - Python pour le traitement de données textuelles (NLP/TAL) : de la lexicométrie aux LLM [à distance]

Thème :

Traiter : réseaux et outils, outils et techniques de gestion documentaire, traitement, analyse, indexation et cartographie de l'information

Tags :

langage programmation

Objectifs

À l'issu de cette formation, les participants:

- Comprendront les concepts clés du TALN et leurs applications en SHS
- Auront exploré des bibliothèques Python courantes pour le TALN, comme NLTK, SpaCy ou Sklearn.
- Sauront mettre en oeuvre des prétraitements de texte (tokenisation, lemmatisation, suppression des mots vides) et des analyses simples (fréquence des mots, concordances, nuages de mots)
- Seront sensibilisés le fonctionnement des modèles de langage (comme ceux basés sur les réseaux neuronaux) et leur application dans le traitement automatique du langage nature
- Pourrons mobilier des modèles préentraînés (ex. : BERT) dans des tâches spécifiques comme la classification de textes ou la génération automatique.
- Identifierons la manière de mettre en place des requêtes sur des services tiers déployant des LLM pour faire de l'annotation par prompts

Programme

Le domaine du NLP regroupe des tâches aussi vastes que le comptage de mots ou l'utilisation de grands models de langage (LLM) pour faciliter l'extraction d'information. Ces outils, largement développés en Python, sont un enjeu clé pour les SHS, qui voient d'ailleurs les applications se multiplier avec les grands modèles de langage et les approches étiquettées "IA". Cette formation propose d'aborder les notions et les  outils existant autour du NLP permettant de traiter les textes comme des données, allant des traitements lexicométriques (comptage de mots) à l'utilisation de modèles de langage, et d'en discuter les conditions d'usage. Elle sera l'occasion d'aborder les étapes de préparation des corpus textuels (découpage de corpus, nettoyage, tokenisation, lemmatisation), leur représentation vectorielle (embeddings), puis leur traitement, que ce soit avec les approches classiques ou les nouveaux traitements permis par les LLM, sur l'ordinateur ou à travers de service distant. Tourné vers une dimension pratique, sans entrer dans les spécificités de chaque discipline, cette séance est l'occasion de réfléchir sur les différentes couches technologiques embarqués dans les usages récents du traitement de données textuelles et les conditions de mise en oeuvre sur des corpus.

ATTENTION : des pré-requis sont demandés (cf ci-dessous)

Prérequis

Maîtriser les bases du langage Python : - Variables, types de données courants (listes, dictionnaires, chaînes de caractères), boucles (for, while) et structures conditionnelles (if, elif, else). - Fonctions de base (création et appel de fonctions simples). - Comprendre comment utiliser des bibliothèques Python - Avoir travaillé avec des fichiers (ex. lecture/écriture de fichiers texte ou CSV). - Être familier avec Jupyter Notebook ou un éditeur de code comme VS Code ou PyCharm. - Disposer d’une connexion internet stable pour les outils en visio.

Public concerné

Tous publics URFIST

Formateur:

Emilien SCHULTZ

Date et lieu

De 14h00 à 18h00

Salle : Formation à distance (lien transmis avec la convocation)

Prochaine session

  • 20/05/2025
    Complet

S’inscrire

Retour à la liste des sessions

Rappel : les stages sont gratuits pour tous les personnels d’établissements d’enseignement supérieur et de recherche, ainsi que pour les doctorants.