Collecte de données et constitution de corpus écrits : numérisation, crowdsourcing

Collecte de données et constitution de corpus écrits : numérisation, crowdsourcing
Master Sciences du langageParcours Sciences du langage et sciences des données

Description

LT36GM05/LT36GM10 – Collecte de données et constitution de corpus écrits
Mme TODIRASCU
Les corpus : définition et exemples (Frantext, Scientext). Critères de constitution de corpus. Corpus bruts vs corpus annotés. Méthodes de collecte de données écrites: numérisation, crowdsourcing, scraping.

Compétences visées

  • connaître les notions de base en linguistique de corpus (corpus écrits vs corpus oraux, mesures statistiques, lexique du corpus, collocatif);
  • savoir constituer son propre corpus selon des critères bien définis;

Modalités d'organisation et de suivi

6 heures en présentiel (semaines 1-3)

Contacts

Responsable(s) de l'enseignement