Linguistique de corpus
Licence Sciences du langageParcours Écritures professionnelles : médias, langue, création

Description

Outils informatiques et statistiques. Rappel des notions de corpus et de la méthodologie de constitution de corpus, des notions de métadonnées. Annotation automatique: étiquetage et lemmatisation. TOutils d'étiquetage: morpho-syntaxe, lemmatisation


Compétences requises

Formuler une recherche en corpus dans un concordancier à l’aide d’expressions régulières

Compétences visées

  • formuler des requêtes en langage CQL sur un corpus étiqueté et lemmatisé

  • identifier les avantages et les limites d’un corpus étiquété et lemmatisé

  • partir d’un problème, formuler les requêtes et interpréter les résultats

Modalités d'organisation et de suivi

Travail sur machine

Disciplines

  • Sciences du langage

Syllabus

Fonctions d'un concordancier (requêtes, sous-corpus, filtres, résultats)

FrWac : ses caractéristiques et fonctions

Consolider les notions d'expression régulière

Formuler des requêtes CQL (avec étiquettes TreeTagger)

Etiquettes Multext

Statistiques

Bibliographie

Habert, B., Nazarenko, A., Salem, A., 1997, Les linguistiques de corpus, Armand-Colin.
Muller,C., 1977,Principes et méthodes de statistique lexicale, Hachette.
Mayaffre, D., 2005, Rôle et place des corpus en linguistique:réflexions introductives,Texto![en ligne], vol. X, n°4.
Sinclair, J.,1991,Corpus, Concordance, Collocation, Oxford University Press.

Contacts

Responsable(s) de l'enseignement