Linguistique de corpus
Licence Sciences du langageParcours Écritures professionnelles : médias, langue, création
Description
Outils informatiques et statistiques. Rappel des notions de corpus et de la méthodologie de constitution de corpus, des notions de métadonnées. Annotation automatique: étiquetage et lemmatisation. TOutils d'étiquetage: morpho-syntaxe, lemmatisation
Compétences requises
Formuler une recherche en corpus dans un concordancier à l’aide d’expressions régulières
Compétences visées
formuler des requêtes en langage CQL sur un corpus étiqueté et lemmatisé
identifier les avantages et les limites d’un corpus étiquété et lemmatisé
partir d’un problème, formuler les requêtes et interpréter les résultats
Modalités d'organisation et de suivi
Travail sur machine
Disciplines
- Sciences du langage
Syllabus
Fonctions d'un concordancier (requêtes, sous-corpus, filtres, résultats)
FrWac : ses caractéristiques et fonctions
Consolider les notions d'expression régulière
Formuler des requêtes CQL (avec étiquettes TreeTagger)
Etiquettes Multext
Statistiques
Bibliographie
Habert, B., Nazarenko, A., Salem, A., 1997, Les linguistiques de corpus, Armand-Colin.
Muller,C., 1977,Principes et méthodes de statistique lexicale, Hachette.
Mayaffre, D., 2005, Rôle et place des corpus en linguistique:réflexions introductives,Texto![en ligne], vol. X, n°4.
Sinclair, J.,1991,Corpus, Concordance, Collocation, Oxford University Press.