Outils pour utilisateurs

Outils du site


public:import:specs_planstextuels

Composants de production de plans textuels

Définir et produire des plans textuels dans un corpus de textes structurés (XML).

Solutions

TXM 0.8.0

Dans TXM 0.8.0, les plans textuels sont définis par plusieurs listes de nom d'élément (hors-texte, hors-texte à éditer). Ils sont produits par le tokenizer de TXM qui :

  • créé des mots uniquement dans les plans textuels (ce qui n'est pas hors-texte ni hors-texte à éditer)
  • supprime les structures hors-texte.

Étapes suivantes

V2

  • hors-texte
    • exprimé par une liste de élément OU élément@attribut OU élément@attribut=valeur 1)
    • représenté dans les sources XML par un attribut @txm:out-of-text
    • opération :
      • par défaut, les outils de traitement des sources pour l'import doivent indexer 2) et éditer 3) le contenu (éléments XML + #PCDATA) d'un texte
      • les outils de traitement des sources pour l'import ne doivent pas indexer ou éditer le contenu (éléments XML + #PCDATA) des éléments annotés par @txm:out-of-text
      • ils doivent transmettre les éléments annotés par @txm:out-of-text aux traitements suivants
  • non-indexé
    • exprimé par une liste de élément OU élément@attribut OU élément@attribut=valeur
    • représenté dans les sources XML par un attribut @txm:no-index
    • opération : il ne faut pas indexer le contenu (éléments XML + #PCDATA) des éléments annotés par @txm:no-index
  • plans nommés
    • exprimé par une liste de “nom + une liste de élément OU élément@attribut OU élément@attribut=valeur
    • exemples :
      • nom=“titres” + selecteur=“head”
      • nom=“corps du texte” + selecteur=“p,div?”
      • nom=“corps du texte sans titres” + selecteur=“+div,-head,p” (???)
      • nom=“discours direct” + selecteur=“q” (le discours direct est inclus dans le corps du texte, avec ou sans titres)
      • nom=“notes de bas de page” + selecteur=“note@type='footnote'”
    • représenté dans les sources XML par un attribut @txm:textual-plane à la valeur du plan (e.g. “titres”, “corps du texte”, etc.)
    • opération : l'utilisateur peut choisir dans quels plans il souhaite chercher et compter
      • le choix peut être réalisé par un paramètre de commande ou par la construction d'un sous-corpus
    • plans particuliers : encodage de la langue par structure
      • exemples :
        • nom=“fro” + selecteur=text@xml:lang=“fro” (tout le texte est par défaut en langue “fro”)
        • nom=“latin” + selecteur=@xml:lang=“lat” (certaines structures internes sont de langue “lat”)
      • en théorie il peut y avoir plusieurs niveaux d'imbrications : fr > en > fr > it…
      • opération :
        • par défaut, les outils de TAL travaillent dans le cadre de la langue définie pour un texte :
          • 1) à partir de la langue du corpus (paramètre de corpus)
          • 2) ou à partir des métadonnées du texte
          • 3) ou bien à partir de la valeur de l'attribut xml:lang de l'élément courant : text > div > seg…
        • le choix du fichier paramètre de langue précis utilisé pour une langue est défini en fonction de l'outil, par exemple :
          • pour UDPipe il faut choisir entre 4 fichiers de modèles différents selon le corpus d'apprentissage utilisé
          • pour TreeTagger on dispose d'un fichier paramètre pour le français écrit et d'un fichier paramètre pour le français parlé
        • un composant catalogue [outil de TAL ↔ langues ↔ fichiers paramètres] peut être utile pour gérer ces choix
        • dans la mesure du possible, il faut alimenter les outils de TAL avec une séquence de contenu #PCDATA compatible avec le niveau linguistique des éléments englobants, par exemple :
          • un outil de segmentation en phrases doit recevoir du contenu qui ne dépasse pas le contenu d'un <head> (un titre ne contient pas de ponctuation forte de fin de phrase en général, et ne doit pas forcément faire partie de la première phrase d'un paragraphe)
          • un outil de segmentation en mots (tokeniseur) doit recevoir du contenu qui ne dépasse pas le contenu d'un <w>
        • dans le cas de pré-encodage partiel ou total de phrases <s> ou de mots <w> dans les sources, il faut définir la stratégie à adopter avec les outils de TAL
        • l'utilisateur peut choisir à quelle langue se limite sa recherche comme un plan nommé quelconque
          • dans le cas des langues imbriquées, il faut choisir une stratégie d'interface et de choix

Flux :

  • on a besoin d'XML pour pouvoir avoir des plans textuels
  • des plans textuels peuvent piloter ce qui doit être tokenisé et annoté
  • on peut produire du XML-TXM à la fin
1)
plus précis que simplement un nom d'élément, permet notamment la sélection à l'élément près, et aussi efficace sans besoin de DOM. Si nécessaire, une opération préalable a équipé certains éléments avec un adressage XPath ou moyen d'un DOM
2)
rechercher des mots, les annoter, les indexer
3)
mettre en forme au sein d'une édition de texte
public/import/specs_planstextuels.txt · Dernière modification: 2020/02/13 18:37 par slh@ens-lyon.fr