Traitement automatique des langues
Licence Sciences du langageParcours Sciences du langage
Description
Applications TAL. Approches symboliques et statistiques. Description d’une chaîne de traitement en TAL. Prise en main de la plateforme Unitex. Constitution et génération d’un lexique et d’une mini-grammaire.
Compétences requises
Les étudiant(e)s doivent être capables de :
formuler une recherche en corpus dans un concordancier à l’aide d’expressions régulières
Compétences visées
A la fin de cet enseignement les étudiants seront capables de
mettre en place une chaîne de traitement (avec une plateforme à base de règles
Unitex)
identifier les approches en TAL (à base de règles, statistiques, apprentissage profond)
créer une ressource simple (lexique, mini-grammaire) utilisable en TAL
Modalités d'organisation et de suivi
Travail sur machine
Disciplines
- Sciences du langage
Syllabus
Différences entre corpus étiquétés, annotés et bruts
Les concordanciers: rappels, requêtes, filtres, résultats, fonctions de FrWac
Notion d'expressions régulières, formulation des requêtes en CQL, étiquettes de TreeTagger, étiquettes Multext
Statistiques: collocatifs, comparaison avec des corpus de référence