Outils pour utilisateurs

Outils du site


Panneau latéral

public:annotation:tal_udpipe

UDPipe

Outils :

  • tokenizer
    • sentencer
  • tagger (pos+lemme)
  • parser (syntax)

Formats de sortie : CoNLL-U v2 ; matxin (XML) ?

Traitement :

  • langue
  • modèle choisi à partir d'une langue à l'aide du catalogue de l'outil
  • outils
    • tokenizer
    • sentencer
    • pos
    • lemmatiser
    • parser
  • input data : segment de texte UTF-8

Contraintes :

  • initialisation
    • charger les modèles à utiliser
  • traitement
    • pouvoir faire plusieurs traitements avec la même instance
  • amont
    • forcer des (débuts&)fins de phrases
  • aval
    • ré-intégrer les balises TEI entre les tokens
      • ex : le dé<i>but de la phrase.</i> → <w>le</w><i><w>début</w><w>de</w><w>la</w><w>phrase</w><w>.</w></i></i>
      • ex : il marche de <i>bout en bout.</i>
        • → il|marche|de|<i>bout|en|bout.</i>
      • ex : il marche de<i>bout en bout.</i>
        • → il|marche|<i>debout|en|bout.</i>

Accès :

  • REST :
    • sur un serveur distant
      • shell
        curl --data 'model=french&tokenizer=&tagger=&parser=&data=Je suis un test.' http://lindat.mff.cuni.cz/services/udpipe/api/process | PYTHONIOENCODING=utf-8 python -c "import sys,json; sys.stdout.write(json.load(sys.stdin)['result'])"
      • java&groovy
        https://stackoverflow.com/questions/25692515/groovy-built-in-rest-http-client
    • sur un serveur local “udpipe_server”
      • shell
      • java&groovy
    • sur un serveur java
      • shell
      • java&groovy
  • Processus
    • “udpipe” avec des traitement en block (stdin&stdout)
  • Java
    • api java de UDPipe

Prototype :

  • udpipe_server local
  • macro String2UDPipe
    • text string
    • model name
    • actions list
    • output file : Connlu
  • macro XTZ2UDPipe V1
    • input file : XML XTZ file
      • generates a list of strings to process with String2UDPipe
      • strings are built using the corpus textual plans (to be indexed)
      • strings are interrupted at sentence or higher level (eg: text, div, head, p, note, s)
      • words are separated by spaces
        • natural spaces
        • tags related spaces: no tag cuts word
    • model name
    • actions list
    • output file : Connlu

Later :

  • macro XTZ2UDPipe V2
    • manages w elements
      • UDPipe tokens and properties must be injected in the existing w element
      • if UDPipe tokens are different → re-align
  • macro Text2UDPipe
    • text id
      • generates a list of strings to process with String2UDPipe
      • strings are built using the corpus textual plans (to be indexed)
      • strings are interrupted at sentence or higher level (eg: text, div, head, p, note, s)
    • model name
    • actions list
    • output file : XML-TXM text file is updated (new tokens)
public/annotation/tal_udpipe.txt · Dernière modification: 2020/01/14 15:53 par matthieu.decorde@ens-lyon.fr