Discussion sur l'ordre du jour du 28 juin

Date, lieu, logistique

La réunion du groupe nouv-com a eu lieu le jeudi 28 juin à l'ILF (Institut de Langue Française), au 44 rue de l'amiral Mouchez, de 10h30 à 16h.

Présents : Chanier, Poudat, Bertucci, Turpin, Longhi, Ledegen, Doquet, Antoniadis, Ben Hamed, David, Namer, Panckhurst, Cislaru, Gauthier, Sagot, Falaise, Kyriacopoulou, Hriba

Objectifs

Rappelons que les objectifs de cette réunion sont, outre le fait de nous mieux connaître, de :

  • progresser dans une intercompréhension de la terminologie propre aux corpus et , en particulier de ceux contenant des productions liées aux nouvelles formes de communication
  • définir des axes de travail et de projets pour 2013
  • faire remonter des besoins au niveau de l'IR-corpus général

N'hésitez pas à venir avec quelques diapos illustrant (de façon didactique) des points qui vous tiennent à coeur.

Points à l'ordre du jour

Céline et Thierry vous proposent le menu suivant :

  • 10h : accueil des participants
  • 10h30 : début des travaux
  • 10h30-11h30 : tour de table en commun sur les objectifs / thématiques de recherche des participants diposant ou constituant des corpus à bases de données provenant des nouvelles formes de communication
  • 11h30-12h30 : présentation, suivi d'une discussion de Benoît Sagot sur l'annotation morpho-syntaxique (en parties du discours) de corpus non-standard. Deux corpus seront décrits: un corpus de données orales transcrites et annotées manuellement en parties du discours (TCOF-POS) et un corpus arboré en cours de constitution à partir de données issues du web (forums de discussion, réseaux sociaux). Bien que de natures en partie différentes, ces corpus ont notamment pour caractéristiques de présenter des formes et des structures non standard. Ils sont également librement disponibles (le corpus arboré le sera une fois terminé). Benoît présentera notamment la chaîne de traitement utilisée pour pré-annoter ces corpus (segmentation en “phrases” et en mots, étiquetage morpho-syntaxique avec MElt), et qui peut à son tour être adaptée à des données non-standard grâce aux annotations manuelles finales. La description de chaîne de traitements permettra d'illustrer un certain nombre de points qui feront l'objet de nos discussions ultérieures. french_social_media_treebank.pdf
  • 12h30-13h30 : repas sur place (avec terrasse s'il fait beau :-) )
  • 13h30-14h30 : travail en 2 groupes . L'idée est la suivante. Chaque participant choisit de participer à l'un des 2 groupes, qu'il soit spécialiste ou non de la question. Si possible des personnes d'une même équipe vont dans des groupes différents. Le groupe étant limité à environ 8 personnes, les échanges pourront être plus interactifs. Chaque groupe désigne un rapporteur pour la mise en commun à 14h30.
    • groupe 1 :
      • a) collecte et structuration des données en vue d'en faire des corpus échangeables et analysables manuellement et automatiquement. On pourra discuter de l'intérêt d'adopter une structure générale commune pour les textos, twits, blogues, clavardages (chats), etc.
      • b) diffusion, partage, pérennisation des corpus nouv-com. Ici on pourra aborder des points se rapportant (en vrac) aux conditions de recueil et collecte (éthique, droit, anonymisation), licence d'utilisation, métadonnées, Clarin, Tge-Adonis, etc.
    • groupe 2 : exploration, traitements et analyses de corpus nouv-com
  • 14h30-15h15 : rapports des groupes et discussions
  • 15h15-16h : rapport d'activité du groupe pour septembre, perspectives de montage de projets de recherche (avec quels financements ?), thématiques de travail du groupe pour 2013, … . Pour en savoir plus, aller ici
  • 16h : fin de la journée
public/reunion-28juin/index.txt · Dernière modification: 2012/07/09 09:52 par Thierry.CHANIER@univ-bpclermont.fr