Liste de liens :
Liste de liens :
Ce chantier suit les développements spécifiés pour le projet ANTRACT.
De nouveaux utilitaires d'assistance à la préparation de sources de corpus ont été développés pour produire le corpus VOIXOFF V0.2.
Ils sont mis en oeuvre par la procédure de construction ci-dessous.
Paramètres de corpus :
“media_auth” est un nouveau champ de la commande de préférences média du corpus.
Pour l'indication du type de corpus, deux styles possibles :
Piloter les stylages de titres de section à l'aide de la propriété Section@type ?
U+25B6 ▶/▶️ (d'après https://en.wikipedia.org/wiki/Media_control_symbols) ??? ♪ U+1F39E FILM FRAMES 🎞 U+1F3A5 MOVIE CAMERA 🎥 U+1F3A6 CINEMA 🎦 U+1F3A7 HEADPHONE 🎧 U+1F3AC CLAPPER BOARD 🎬 U+1F3B5 MUSICAL NOTE 🎵 U+1F3B6 MULTIPLE MUSICAL NOTES 🎶 U+1F4FA TELEVISION 📺
Okapi exporte une liste d'identifiants de sujets vers TXM pour transmettre des corpus construits dans Okapi.
Cet utilitaire doit construire une liste d'identifiants de sujets ayant le même format vers Okapi (identifiants séparés par '|' sans espaces entre eux).
La liste est construite à partir d'un sous-corpus en projetant ses mots sur les structures de sujets les dominants.
Attention : il faut tenir compte de l'architecture du corpus (AFNOTICES et AFVOIXOFF sont différents).
La liste est triée alphabétiquement pour faciliter sa lecture.
La chaîne représentant la liste est copiée dans le presse-papier et affichée dans la console.
Paramètres :
L'API Okapi expose une commande “create_corpus” qui permet de créer un corpus Okapi (et d'ajouter des sujets à un corpus).
Avant toute commande, il faut s'identifier sur le serveur okapi avec la commande “login” en renseignant les paramètres GET :
La requête HTTP retourne alors un identifiant de session que l'on trouve dans les cookies (“Set-Cookie”) à la valeur “okapi”.
Pour les commandes suivantes, il faut alors renseigner cet identifiant de session dans le paramètre d'entête HTTP “session”.
Les paramètres de la commande “create_corpus” dépendent de l'usage souhaité :
Lors du premier lancement de l'utilitaire ExporterSousCorpusSujetsDansOkapi, TXM demande à l'utilisateur de renseigner son identifiant+mot de passe de la même façon que pour le retour au média (Il faudra re-renseigner cela si TXM est coupé).
L'utilitaire va construire pour l'utilisateur la liste des identifiants de sujet à partir du corpus sélectionné.
Paramètres :
L'utilitaire utilise la commande Okapi “create_corpus” avec le paramètre “uri” renseignant l'identifiant du corpus à mettre à jour et le paramètre “content” renseignant la liste des identifiants (ou contenu du POST)
Paramètres :
Okapi expose une commande “export_corpus” dans son interface web. La commande donne une chaîne contenant la liste des identifiants de sujets sous la forme “id1|id2|id3|…|idN”.
L'utilitaire ImporterCorpusDepuisOkapi prend en entrée :
En fonction du corpus principal sélectionné, un sous-corpus est créé avec la requête (avec IDS la liste des identifiants) :
Limite CQL : la requête CQL ne doit pas dépasser ~2000 caractères
Okapi pourrait exposer une commande “export_sujet” dans son interface web. La commande donnant une chaîne contenant la liste des identifiants de sujets sous la forme “id1|id2|id3|…|idN”.
L'utilitaire ImporterCorpusDepuisOkapi prend alors en entrée :
En fonction du corpus principal sélectionné, un sous-corpus est créé avec la requête (avec IDS la liste des identifiants) :
Limite CQL : la requête CQL ne doit pas dépasser ~2000 caractères
Utiliser les commandes dump/undump de CQP pour construire manuellement des sous-corpus.
Paramètre :
Opérations ensemblistes sur les listes de matchs de sous-corpus
text@id = AFE00001267, AFE00001287, AFE00001787, AFE00001788, AFE00001863
Résonance : analyse combinante 2
[_.text_typedenotice="Notice sujet"] expand to text
[_.text_resume=".*Brigitte Bardot.*"%c | _.text_sequences=".*Brigitte Bardot.*"%c] expand to text
→ sujets dont la métadonnée résumé contient “Brigitte Bardot” ou bien la métadonnée séquence contient “Brigitte Bardot”
[word="brigitte"] [word="bardot"] expand to text
→ sujets contenant la séquence de mots “brigitte” “bardot”
Résonance : analyse combinante 2 - cas foule
[_.text_typedenotice="Notice sujet"] expand to text
[_.text_resume=".*foule.*"%c | _.text_sequences=".*foule.*"%c] expand to text
[frplemma="foule"] expand to text
Navigation dans les éditions de sous-corpus
[_.text_typedenotice="Notice sommaire"] expand to text
Si vous souhaitez simplement installer la version courante de TXM pour l'utiliser dans le cadre du projet Antract, la procédure d'installation est maintenant dans un document propre disponible sur le sharedocs huma-num du projet ici : ANR > ANTRACT > SP2 Corpus & Recherche technologique > TXM > formation_et_aide > fiche_installation
Lien direct de téléchargement de la version pdf : fiche_installation_txm_antract_200507a.pdf
Les paragraphes qui suivent concernent le cas où vous souhaitez aider le projet en testant la nouvelle version et en vérifiant son bon fonctionnement.
Mille neuf cent quarante-cinq. C'est le premier 1er janvier de la Libération…
Retours
les premiers Gala voici d'autres visage Brigitte Bardot , Johnson là Des grandes vedettes, elle du tout Paris en
)0:02:16 ♫ Avec les premiers Gala voici d'autres visage Brigitte Bardot,
Retours
0:02:11 ♫ Le président du jury [Marcel Pagnol. 0:02:16 ♫ Avec les premiers Gala voici d'autres visage Brigitte Bardot, 0:02:21 ♫ Johnson S 14: 0:02:23 ♫ là Des grandes vedettes, elle du tout Paris en smoking écossais André duguay avec] Nadia gray et oui, Jean pierre ou non une distribution
Retours
Retours
S 48: 0:04:46 ♫ La S 26: 0:04:50 ♫ Quelles que soient les difficultés d'honneur la France ne détourne pas de sa grandeur impérial dans le sud algérien le port le plus bel verte qui porte le nom d'un héros de la guerre de Tunisie est inauguré par messieurs châtaignes au gouverneur général. S 48: 0:05:06 ♫ De fait,
Retours
La macro est définie à la section Import/export de définitions de sous-corpus (sélection de textes).
div@genre=“Presse filmée;Reportage;”
AFE85001294|AFE85001326|AFE85007690|AFE85009829|AFE85009904|AFE86000447|AFE86000510|AFE86001276
AFE85001294|AFE85001326|AFE85007690|AFE85009829|AFE85009904|AFE86000447|AFE86000510|AFE86001276
La macro est définie à la section Import/export de définitions de sous-corpus (Utilitaire ExporterSousCorpusSujetsDansOkapi).
div@genre=“Presse filmée;Reportage;”
AFE85001294|AFE85001326|AFE85007690|AFE85009829|AFE85009904|AFE86000447|AFE86000510|AFE86001276
Exécution du script Groovy ExporterSousCorpusSujetsDansOkapiMacro.groovy… Liste des identifiants (8) : AFE85001294|AFE85001326|AFE85007690|AFE85009829|AFE85009904|AFE86000447|AFE86000510|AFE86001276 Erreur : Le corpus Okapi n'a pas été créé (code d'erreur=error_write_unauthorized) Effectué en 36762 ms.
Le corpus 'titre_corpus_okapi' son identifiant est http://www.campus-AAR.fr/corpus_1609545312
Le corpus 'test txm reportages' a été créé dans Okapi, son identifiant est http://www.campus-AAR.fr/corpus_1609545312
[word="modes?"%c & _.notice_identifiantdelanotice!="AFE85007446|AFE85010240|AFE85003943|AFE85009291|AFE85008305|AFE85001505|AFE85008807"] expand to notice
$HOME\TXM-0.8.1\scripts\groovy\user\org\txm\macro\projects\antract
c'est-à-dire si je suis sous Windows et que mon nom d'utilisateur est 'bpincemi' :
C:\Users\bpincemi\TXM-0.8.1\scripts\groovy\user\org\txm\macro\projects\antract
[cette commande est analogue à la commande 'Export du corpus' d'Okapi]
div
dont la propriété genre
a la valeur “Presse filmée;Reportage;”AFE85001294|AFE85001326|AFE85007690|AFE85009829|AFE85009904|AFE86000447|AFE86000510|AFE86001276
[cette commande va créer un nouveau corpus dans Okapi]
AFE85001294|AFE85001326|AFE85007690|AFE85009829|AFE85009904|AFE86000447|AFE86000510|AFE86001276
[cette commande va créer un nouveau sous-corpus dans TXM]