Outils pour utilisateurs

Outils du site


public:chantier_txm

Chantier TXM

Rappel des objectifs-projet généraux

1.2.3. Integrated Analysis Platform

Various computerized methodologies and platforms are available to help researchers analyze linguistically annotated corpora (GATE, UIMA, WebLicht…).

The [IHRIM] laboratory has developed, through several research projects, an original analysis platform called TXM that implements the textometry methodology and combines several key capabilities: the ability to ingest finely XML-TEI encoded textual corpora, building of high quality text editions (rendering critical apparatus, annotations, styling, pagination, etc.), full text word patterns query search through the efficient CQP engine and statistical models computation based on R packages, applied on the extractions of the search engine.

The PROFITEROLE project will extend the extraction tools and statistical models by coupling syntactic node patterns search engines into the TXM platform.

From a methodological point of view, this will allow the combination of CQL queries expressing extraction constraints on words and their properties (like POS and lemma) and their structural context (like text metadata values or being in direct speech or not) with, for example, TIGERSearch queries expressing extraction constraints on syntactic tree nodes or terminals. The combination of constraints will be based on a join on CQP and TIGERSearch tokens. This will provide new insights in annotated corpora like: applying a contrastive statistical model to different centuries and text genres based on the raw frequency of various syntactic annotations or to the contrast between direct speech and non-direct speech in texts based on the raw frequency of some syntactic patterns.

Those new analysis tools will be prototyped in the portal version of TXM (for online access to the corpus) and in the local desktop version (for local analysis).

Corpus sur lesquels TXM doit travailler

Étapes de développement

Étape 1

Étape 2

Étape 3

Étapes suivantes

  • combinaison CQP / TS et CQP / CoNLL pour les traitements textométriques
    • externe = sous-corpus et partition (UI ou script)
    • interne = fusion de sélections de séquences d'occurrences
  • syntaxe RDF (la représentation source du projet ANR-DFG SRCMF) : intégration de composants SPARQL : extraction SPARQL, visualisations (cf proto MZI)

Tickets de développement

Recettes

Recette 1.1 WP5.1 - add SRCMF UD syntactic annotations + browse syntactic trees

  • télécharger le corpus binaire BFM
  • charger le corpus BFM dans TXM
  • ajouter les annotations syntaxiques du corpus SRCMF UD au corpus BFM avec la commande Corpus > Import > UD Syntactic annotations…
    • vérifier le nombre d'annotations ajoutées et le nombre d'annotations non ajoutées (bugs de correspondance d'ID de mots)
  • vérifier que la commande Propriétés (ex Informations/Description/Diagnostic) indique les bonnes informations concernant l'annotation syntaxique
  • exporter le corpus BFM dans BFM-UD
  • lancer la commande Corpus > Browse UD Syntactic Trees (fr= Voir Arbres syntaxiques UD) (icone arbre syntaxique oblique (versus dendrogramme rectangulaire))
    • vérifier la visualisation des arbres de phrases
    • naviguer dans les arbres

Recette 1.2 WP5.3 - Icarus search engine syntactic concordance

  • charger le corpus BFM-UD
  • lancer la commande Concordance
    • sélectionner le moteur Icarus Search
    • utiliser l'assistant de requêtes Icarus pour formuler la requête XXX, en tenant compte des paramètres de la concordance syntaxique
    • régler les paramètres supplémentaires de la concordance syntaxique
    • lancer la requête
    • parcourir la concordance
    • vérifier les retours au texte dans l'édition

Recette 1.3 WP5.3 - browse edition by UD syntactic annotations

  • lancer la commande Édition sur le corpus BFM-UD
  • cliquer sur le bouton 'UD Annotation' (fr='Annotation UD')
  • naviguer dans l'édition entre les phrases avec la barre d'outils d'annotation UD
    • vérifier que la phrase courante est bien visible (focus), que ses mots sont mis en évidence et que le verbe est bien distingué

Recette 2.1 WP5.3 - import XML-TIGER syntactic annotations

  • télécharger le corpus SRCMF TIGER
  • importer le corpus dans TXM avec le module XML-TIGER+CSV
    • vérifier que la commande Propriétés indique les bons identifiants de textes
  • lancer la commande Corpus > TIGER Syntax (fr=Syntaxe TIGER) (icone TS)
    • naviguer dans les arbres (sans recherche?)

Recette 2.2 WP5.3 - ajouter annotations syntaxiques SRCMF TIGER + concordance syntaxique TIGER

  • télécharger le corpus binaire BFM
  • charger le corpus BFM dans TXM
  • télécharger le corpus SRCMF TIGER
  • ajouter les annotations syntaxiques du corpus SRCMF TIGER au corpus BFM avec la commande Corpus > Import > XML-TIGER Syntactic annotations…
  • lancer la commande Concordance
    • sélectionner le moteur TIGER Search (→ concordance syntaxique)
    • utiliser l'assistant de requêtes TIGER pour formuler la requête XXX, en tenant compte des paramètres de la concordance syntaxique
    • régler les paramètres supplémentaires de la concordance syntaxique
    • lancer la requête
    • parcourir la concordance
    • vérifier les retours au texte dans l'édition

Recette 3 WP5.2 - partition index on UD syntactic annotations

  • créer une partition de textes dans le corpus SRCMF-UD
  • lancer la commande Index sur cette partition
    • sélectionner le moteur IcarusSearch
    • utiliser l'assistant de requêtes pour formuler la requête XXX, en tenant compte des paramètres de l'index
    • régler les paramètres supplémentaires de l'index
    • lancer le calcul
    • parcourir le tableau de résultats

Recette 4 WP5.2 - subcorpus index on UD syntactic annotations

  • faire un sous-corpus du discours direct dans le corpus BFM-TIGER
  • lancer la commande Index sur ce sous-corpus
    • sélectionner le moteur IcarusSearch
    • utiliser l'assistant de requêtes pour formuler la requête XXX, en tenant compte des paramètres de l'index
    • régler les paramètres supplémentaires de l'index
    • lancer le calcul

Recette 5 WP5.3 - ajouter annotations syntaxiques SRCMF RDF + concordance SPARQL

  • télécharger le corpus binaire BFM
  • charger le corpus BFM dans TXM
  • télécharger le corpus SRCMF RDF
  • ajouter les annotations syntaxiques du corpus SRCMF RDF au corpus BFM avec la commande Corpus > Import > N3-RDF Notabene annotations…
  • lancer la commande Concordance
    • sélectionner le moteur SPARQL
    • utiliser l'assistant de requêtes SPARQL pour formuler la requête XXX
    • lancer la requête
    • parcourir la concordance
    • vérifier les retours au texte dans l'édition

Recette 6 WP5.3 - upload corpus with TIGER syntactic annotations to portal + syntactic TIGER concordance

  • télécharger le corpus binaire BFM
  • charger le corpus BFM dans TXM
  • télécharger le corpus SRCMF TIGER
  • ajouter les annotations syntaxiques du corpus SRCMF UD au corpus BFM avec la commande Corpus > Import > XML-TIGER Syntactic annotations…
  • uploader le corpus BFM-SRCMF dans un portail TXM en tant qu'admin
  • lancer la commande Concordance sur le corpus BFM-SRCMF du portail
    • sélectionner le moteur TIGER Search (→ concordance syntaxique)
    • utiliser l'assistant de requêtes TIGER pour formuler la requête XXX, en tenant compte des paramètres de la concordance syntaxique
    • régler les paramètres supplémentaires de la concordance syntaxique
    • lancer la requête
    • parcourir la concordance
    • vérifier les retours au texte dans l'édition

Recette 7.1 WP5.1 - import CoNLLU

  • importer le corpus SRCMF UD
  • comparer les annotations syntaxiques UD de cet import avec les annotations syntaxiques UD importées dans le corpus BFM (cf recette 1.1)

Recette 7.2 WP5.1 - parse (mate tools)

  • importer le corpus SRCMF UD
    • demander l'annotation syntaxique par mate-tools avec le modèle d'Ancien Français (eg celui d'AS)
  • comparer les annotations produites avec les annotations d'origine du corpus SRCMF UD

Recette 7.2 WP5.1 - load CoNLLU + learn parser (mate tools) + parse

  • charger le corpus SRCMF UD
  • lancer l'apprentissage d'un modèle d'annotation syntaxique AF par mate-tools
  • appliquer le modèle AF sur le corpus SRCMF UD
  • comparer les annotations produites avec les annotations d'origine du corpus SRCMF UD
public/chantier_txm.txt · Dernière modification: 2019/07/03 10:21 par matthieu.decorde@ens-lyon.fr