Outils pour utilisateurs

Outils du site


Panneau latéral

public:tal_talismane

Talismane

Langues traitées par défaut

  • Français
  • Anglais

Annotations produites

  • morphosyntaxe
  • lemme
  • syntaxe

Format d'entrée

  • Fichier texte brut
  • Java (TokenSequence)

Format de sortie

  • CoNLL-X
  • Java (DependencyNode)

Workflow

  1. phrases (avec SentenceDetector)
  2. tokenizer (avec Tokeniser)
  3. msd (avec le PosTagger)
  4. syntaxe

Appel depuis TXM avec une macro

En récupérant les fichiers du répertoire smb://ensldfs.ens-lyon.fr/services/Laboratoires/labo_ana_corpus/Projets/Textométrie/Logiciels/Talismane.

Copier le contenu du dossier “lib” dans TXMHOME/scripts/lib et le fichier Groovy dans TXMHOME/scripts/macro/org/txm/macro, récupérer aussi le modèle français (archive zip à ne pas décompresser.

La macro prend 2 arguments :

  • file, un fichier TXT UTF-8
  • model, le modèle (archive zip)

Le résultat est affiché dans la console.

Appel en ligne de commande

  • options (java -jar talismane-core-5.1.1.jar --help)

traitement d'un fichier

java -Xmx2G -Dconfig.file=talismane-fr-5.0.4.conf -jar talismane-core-5.1.1.jar --analyse --sessionId=fr --encoding=UTF-8 --keepDirStructure=true </home/sheiden/Documents/projet-antract/ina-dataset/Commentaires/OCR/txt/08_France_Actualites_1944.txt --logConfigFile examples/conf/logback-sheiden.xml

boucle avec ré-initialisations

cd /home/sheiden/Documents/projet-antract/ina-dataset/Commentaires/OCR/txt

for input in *.txt

do
output=`basename $input .txt`.tal
echo "$input"
cd /home/sheiden/Software/talismane-distribution-5.1.1-bin
java -Xmx2G -Dconfig.file=talismane-fr-5.0.4.conf -jar talismane-core-5.1.1.jar --analyse --sessionId=fr --encoding=UTF-8 \
--logConfigFile examples/conf/logback-sheiden.xml \
< /home/sheiden/Documents/projet-antract/ina-dataset/Commentaires/OCR/txt/"$input" \
> /home/sheiden/Documents/projet-antract/ina-dataset/Commentaires/OCR/tal/"$output"

done

appel en mode client/serveur (sans ré-initialisations)

  • serveur :
    java -Xmx2G -Dconfig.file=talismane-fr-5.0.4.conf -jar talismane-core-5.1.1.jar --analyse --sessionId=fr --mode=server --encoding=UTF-8 &
  • client :
    java -Xmx1G -jar talismane-examples-5.1.1.jar TalismaneClient localhost 7272

Saisir du texte, terminer par une ligne vide.

public/tal_talismane.txt · Dernière modification: 2018/04/06 17:09 par slh@ens-lyon.fr