UMR LLL-ESLO : analyse de transcriptions d'ESLO I et ESLO II

Cette page recense les différents éléments évoqués le 13/05/2014 à Orléans concernant l'exploitation avec TXM de corpus de transcriptions du LLL.

Elle doit servir à faire la liaison entre IHRIM et LLL et au suivi des développements de solutions.

Sélection de transcriptions

Cette opération consiste à produire le répertoire de transcriptions et les métadonnées associées.

Dans le contexte d'ESLO, cela se fait à l'extérieur de TXM par l'utilisation de la base relationnelle de métadonnées et des répertoires de transcriptions.

→ une idée pourrait être d'ajouter un connecteur SGBDR à TXM pour aider à l'interrogation directe de la base relationnelle.

En attendant, il s'agit de produire le bon fichier 'metadata.csv' à associer aux transcriptions sélectionnées.

Transfert de métadonnées

L'analyse d'un corpus issu des bases ESLO I et ESLO II repose sur l'usage a) de métadonnées de transcriptions et b) de métadonnées de locuteurs.

Actuellement le module d'import Transcriber+CSV de TXM gère directement le cas a) mais pas le cas b).

→ une idée pourrait être de faire évoluer ce module d'import pour gérer le cas b) également.
On pourrait par exemple ajouter un fichier 'loc_metadata.csv' (en plus de 'metadata.csv') dévolu au codage de métadonnées de locuteurs. Le module pourrait alors projeter au niveau des tours ou des segments ces informations, permettant de les manipuler dans TXM pour faire des sélections, sous-corpus ou partitions à l'aide de ces propriétés.

Maintenir l'édition des transcriptions TRS et les propriétés de structures

La procédure de correction et d'ajout de propriété passant par une importation d'une nouvelle version d'un corpus de transcriptions au moyen du module d'import XML-TXM ne permet pas :

  • d'obtenir des éditions équivalentes à celles produites par le module Transcriber+CSV
  • de préserver certaines information structurelles (lesquelles ?)

→ une façon de répondre à ce besoin pourrait être de faire évoluer le module d'import Transcriber+CSV en rendant optionnelle la phase 'IMPORTER'.
Dans ce cas la procédure deviendrait :

  • réinjecter les corrections-ajouts dans le XML-TXM pivot
  • lancer une nouvelle commande 'Ré-importer' un corpus qui rechargerait l'interface de paramètres d'importation
  • désélectionner l'opération 'IMPORTER'
  • lancer le ré-import

Réaligner une transcription avec des annotations lexicales

Il s'agit de pouvoir projeter sur une transcription mise à jour les annotations lexicales encodées dans une version antérieure de la transcription.

Dans le cas de transcriptions ESLO, le travail de réalignement doit se faire sur la base de transcriptions au format XML (il faut préserver les informations supra et infra lexicales).

Pouvoir manipuler des phonèmes, syllabes ou morphèmes

En admettant la production automatique d'annotations internes aux mots à l'aide d'outils. Il y a deux possibilités pour les manipuler dans TXM en même temps que les annotations habituelles :

  • ces informations sont ajoutées comme propriétés de mots. Par exemple :
    <w pron="pʁɔ.pʁi.je.te" frppos="NOM">propriété</w>
    • on peut alors chercher ou compter les [pron=“pʁɔ.*”], etc.
  • ces informations sont encodées à la place des mots, les informations concernant ces derniers étant déplacées vers une structure supérieure. Par exemple :

<word pron="pʁɔ.pʁi.je.te" word="propriété" frppos="NOM">
 <w>pʁɔ</w>
 <w>pʁi</w>
 <w>je</w>
 <w>te</w>
</word>
On peut alors chercher ou compter les /pʁɔ/ se trouvant dans un nom : [word=“pʁɔ” & _.word_frppos=“NOM”]

Gestion des identifiants de locuteurs et de thèmes de sections

Nous devons généraliser la projection des identifiants de locuteurs et de thèmes sur les structures des transcriptions (à la place des indentifiants internes de Transcriber).

Lemmatisation de l'anglais

La segmentation lexicale semble ne pas fonctionner de façon compatible avec TreeTagger pour l'anglais : “won't” → “won'” + “t”. Et du coup TreeTagger ne trouve pas les formes correspondant à son modèle pour l'anglais.

→ il faut vérifier si un changement de paramètre d'import de repérage des apostrophes ne résout pas le problème. Quelle modification à apporter ?

→ remplacer les n't par <w>n't</w> avant importation dans TXM

Importation d'un corpus après avoir été annoté morphosyntaxiquement par treetagger

Peut-on importer une transcription annoté par treetagger ? Exemple du texte produit après annotation :

we PP we
do VBP do
n't RB n't
know VB know

Possibilité d'ajouter l'information de cette façon :
<w enpos=“PP” enlemma=“it”>it</w>
<w enpos=“VBZ” enlemma=“be”>'s</w>

Mais il ne prend pas en compte la propriété aux mots

Importation dossier et sous dossier

L'importation XML-Transcriber ne permet pas d'importer un corpus arboré avec des sous-dossier

→ Pour l'instant aucun import de TXM permet d'importer un corpus arboré avec des sous-dossiers, le manuel et le logiciel ne sont pas synchros. Un début de spécification sera défini ici

Requête avec condition

on peut faire :

(a:[enpos="PP"] b:[]) :: ((a.enlemma="I" & b.enlemma!="mean|think") | (a.enlemma="you" & b.enlemma!="know"))

explications :

  • 'a:[…]' permet d'étiqueter 'a' l'occurrence considérée et de la mentionner ailleurs dans la requête par le biais de l'étiquette
  • '::' est un opérateur qui permet d'ajouter l'expression de contraintes à une requête sans ajouter d'expressions d'occurrences
  • 'a.enlemma=“I”' signifie que la valeur de la propriété 'enlemma' de l'occurrence étiquetée 'a' doit être 'I'
  • '&' et '|' expriment les opérateurs ET et OU logiques habituels
  • les '(…)' permettent d'expliciter à quelles parties s'appliquent les différents opérateurs

Création de sous corpus

La création de sous corpus entraine une perte de “métadonnées”. En effet, depuis un corpus transcriber, on crée un sous corpus avec un locuteur X. Or, il manque des données à ce sous corpus, notamment, il n'a pas ce qu'il faut en terme de “text_id” et donc on n'a pas non plus toutes les métadonnées issues de notre metadata.csv puisqu'il se fie à text_id. –> une erreur du module ??



Retour à la liste des projets.

public/analyse_de_transcriptions_eslo_avec_txm.txt · Dernière modification: 2016/10/25 15:50 par slh@ens-lyon.fr