Traitement automatique des langues
Licence Sciences du langageParcours Écritures professionnelles : médias, langue, création
Description
Applications TAL. Approches symboliques et statistiques. Description d’une chaîne de traitement en TAL. Prise en main de la plateforme Unitex. Constitution et génération d’un lexique et d’une mini-grammaire.
Compétences requises
Les étudiant(e)s doivent être capables de :
formuler une recherche en corpus dans un concordancier à l’aide d’expressions régulières
Compétences visées
A la fin de cet enseignement les étudiants seront capables de
mettre en place une chaîne de traitement (avec une plateforme à base de règles
Unitex)
identifier les approches en TAL (à base de règles, statistiques, apprentissage profond)
créer une ressource simple (lexique, mini-grammaire) utilisable en TAL
Modalités d'organisation et de suivi
Travail sur machine
Disciplines
- Sciences du langage
Syllabus
Différences entre corpus étiquétés, annotés et bruts
Les concordanciers: rappels, requêtes, filtres, résultats, fonctions de FrWac
Notion d'expressions régulières, formulation des requêtes en CQL, étiquettes de TreeTagger, étiquettes Multext
Statistiques: collocatifs, comparaison avec des corpus de référence