Projet corpus Nouv-com

avril 2013 : Ce projet se poursuit dorénavant sur le site Corpus CoMéRé (Communication Médiée par les Réseaux)

Rassemblement de corpus existants. Plusieurs membres / équipes de notre groupe de travail disposent déjà de corpus rassemblant des nouvelles formes de communication (SMS/textos, Blogues, clavardage, forums, twit, etc.). Il s'agit de sélectionner tout ou partie de ces corpus déjà organisés en XML et contenant des données langagières essentiellement en langue française, afin de les rassembler en une banque de corpus accessible à tous. Chaque corpus sera documenté suivant des standards (OLAC, CLARIN)et sera référencé à l'aide de permalien. La banque sera installé sur un serveur mis à disposition sur un serveur national (cf. ci-dessous), faisant tourner un protocole OAI-PMH. Des membres de ce projet participeront aux réunions du Corpus de référence du français afin d'envisager d'adjoindre cette banque au corpus global. Les membres du projet étudieront la façon dont des analyses / annotations pourront compléter ce corpus (ces analyses et annotations pourront faire l'objet de projet de recherche financés par ailleurs - ANR, etc., la banque servant alors de point d'appui dans le montage de ces projets). Ils travailleront également en coopération avec le projet TEI-nouv-com afin de voir comment à l'horizon 2013-14, les corpus de la banque pourraient être avoir une version TEI. Vous pouvez participer à ce groupe, soit parce que vous êtes en mesure de mette à disposition du projet vos corpus ou, si vous n'en avez pas, désirez participer à l'avancement du projet

  • Coordinateur : à déterminer
  • Personnes amenant des corpus : Gudrun Ledegen, Thierry Chanier, Benoît Sagot, Virginie Zampa, Achille Falaise, Georges Antoniadis, Georgeta Cislaru.
  • Autres participants : Tita Kyriacopoulou, Rachel Panckhurst
  • Total : 9 personnes ; UR différentes : 8 (3 IDF, 3 Grenoble, 1 Rennes, 1 Clermont-Fd, 1 Montpellier)
  • Lieu potentiel de réunion : Grenoble et Ile de France (IDF)
  • Réunions et déplacements : 2 réunions en présentiel(dont 1 couplée avec celle du projet TEI nouv-com, le jour suivant) ; 2×6 déplacements ; 12 nuitées. Plusieurs réunions en ligne pourront avoir lieu dans Adobe Connect.

Note : Benoit et Gudrun ont émis une réserve sur le fait de participer aux travail du groupe (en dehors des réunions). Rachel n'écarte pas l'idée de pouvoir amener des corpus.

Conditions de travail

Serveur national

Des discussions ont commencé, après l'offre de Jean-Marie Pierrel, d'hébergement de notre futur corpus chez Ortolang . Ortolang est un équipement d'excellence (EquipEx) de niveau national destiné à offrir des services pour le rassemblement de corpus et outils en langues. Un appel à projets devrait avoir lieu début 2013. Les projets retenus pourraient bénéficier de ressources humaines (CDD Ingénieur d'étude) destinées à aider à l'organisation et au dépôt de corpus chez Ortolang. Prévisions de demande 4 mois CDD de façon à arriver à 6 mois au total (cf. ci-dessous)

Serveur intermédiaire

Les corpus en cours d'extraction et de traitement pourront être déposés sur un serveur au LRL On demande 1 CDD de 2 mois pour ce faire (1 mois demandé au LRL + 1 mois au Corpus-écrits)

Coopération

  • Ce projet est en relation direct avec le projet TEI nouv-com puisque la banque de corpus finale sera en TEI
  • Notre banque de corpus sera intégré au Corpus de Référence du Français (horizon 2014 ?)
public/proj-corpus/index.txt · Dernière modification: 2013/04/13 17:14 par Thierry.CHANIER@univ-bpclermont.fr