Collecte de données et constitution de corpus écrits : numérisation, crowdsourcing
Master Sciences du langageParcours Sciences du langage et sciences des données
ComposanteFaculté des lettres
Description
LT36GM05/LT36GM10 – Collecte de données et constitution de corpus écrits
Mme TODIRASCU
Les corpus : définition et exemples (Frantext, Scientext). Critères de constitution de corpus. Corpus bruts vs corpus annotés. Méthodes de collecte de données écrites: numérisation, crowdsourcing, scraping.
Compétences visées
- connaître les notions de base en linguistique de corpus (corpus écrits vs corpus oraux, mesures statistiques, lexique du corpus, collocatif);
- savoir constituer son propre corpus selon des critères bien définis;
Modalités d'organisation et de suivi
6 heures en présentiel (semaines 1-3)