Liste de liens :
Liste de liens :
Les corpus parallèles alignés sont composés de textes alignés au niveau de certaines structures.
L'alignement par facette - au mot près - est un autre type de corpus parallèle (voir la Queste del Saint Graal).
Les corpus parallèles alignés sont construits par l'import TMX.
Le corpus est implémenté par autant de corpus CQP que de langue, ces corpus entretenant des relations d'alignement CQP.
Les éditions de ces corpus sont indépendantes (pas d'édition synoptique par exemple).
Le cas des éditions synoptiques alignées par page (structures éditoriales) est un autre cas de figure (que les structures internes), pas forcément facile à gérer dans le cas de corpus parallèles1).
Repose notamment sur une définition XML-TXM finalisée.
Le corpus AFVOIXOFF + AFNOTICES peut être un use case. Dans ce cas se pose la question de la gestion du retour au texte ou du retour à la vidéo depuis chaque “version” ou “modalité” du corpus
C'est un cas de figure qui peut correspondre à la production d'une nouvelle surface (mots), en reprenant les structures existantes possibles, pour pouvoir bénéficier des outils de TXM sur de nouveaux tokens.
Le projet d'analyse des plans de films dans le corpus AFVOIXOFF peut être un use case :
GP -> "gros plan"%c|"GP" VG -> "vue générale"%c|"VG" TR -> "travel.*"%c|"trav"%c
Premiers utilitaires répondant au cas c).
[SH, 24/06/2020 : devrait s'appeler AddWordPropertyValuesByCqlList]
Utilitaire d'ajout en masse de valeurs à une propriété de mots à l'aide d'une liste de requêtes CQL (à chaque CQL correspond une valeur de la propriété à ajouter), sans passer par une interface d'annotation interactive.
Une option permet de limiter l'ajout aux seuls fichiers pivots (XML-TXM) du corpus. Les annotations sont sauvegardées dans les fichiers pivots mais les index CQP et les éditions du corpus ne sont pas mis à jour. Ce mode de fonctionnement est prévu pour l'exploitation des fichiers pivots modifiés par d'autres outils (le corpus est alors dans un état instable).
Cet utilitaire appelle CQLList2WordAnnotations, sauvegarde les annotations puis met éventuellement à jour les index du moteur CQP et les éditions du corpus de sorte à ce que la nouvelle propriété soit utilisable directement par les outils de TXM appliqués au corpus.
Paramètres
Voir la documentation de l'utilitaire CQLList2WordAnnotations pour la description précise de l'usage des paramètres queries_file et word_property.
Utilitaire d'annotation en masse de mots par une liste de requêtes CQL, sans passer par une interface d'annotation interactive.
Paramètres
Cet utilitaire ajoute une nouvelle propriété d'annotation word_property à tous les premiers mots des matchs de chaque requête se trouvant sur une ligne du fichier TSV queries_file. La propriété d'annotation word_property prend pour valeur l'élément précédent la requête dans la ligne du fichier TSV queries_file.
Le fichier TSV queries_file contient un mot-clé et une requête CQL par ligne.
Chaque ligne a le format : valeur (ou mot-clé) ⇥ requête CQL
Le caractère séparateur de champs (symbolisé par '⇥') est la TABULATION.
Les lignes commençant par '#' sont ignorées (lignes de commentaires).
Exemple de fichier TSV [mot-clé, requête CQL] :
GP "gros"%c "plan"%c|"GP"|"GPP" PA "plan"%c "américain"%cd|"PA"
Glose :
Utilitaire d'annotation en masse de mots par une requête CQL, sans passer par une interface d'annotation interactive.
Paramètres
Cet utilitaire ajoute une nouvelle propriété d'annotation word_property à la valeur annotation_value à tous les premiers mots des matchs de la requête query.
L'utilitaire WordProperties2Word permet de recoder la surface textuelle d'un corpus, au sens où il produit une nouvelle version des fichiers pivots source XML-TXM d'un corpus TXM où seulement certains mots du corpus d'origine sont présents - en respectant l'ordre d'origine des mots du corpus. Les mots sont sélectionnés à partir d'une propriété particulière des mots d'origine (paramètre word_property de l'utilitaire). La valeur de cette propriété est utilisée pour encoder la forme graphique des mots du nouveau corpus, les autres propriétés de mots étant par ailleurs transférées aux nouveaux mots. Les mots d'origine n'ayant pas de valeur ou une valeur vide pour cette propriété sont ignorés dans la construction du nouveau corpus. Les structures et leurs propriétés sont transférées dans le nouveau corpus.
Le répertoire de sources XML-TXM produit peut alors être importé, par exemple, avec le module XTZ en l'équipant d'un répertoire de pré-traitement '2-front' avec la feuille XSLT 'txm-front-teitxm2xmlw.xsl' pour redresser les propriétés de mots.
Paramètres
Recette correspondant au cas c).
DP "divers|différ.nts|autres"%cd "plans"%c|"DP" GP "gros"%c "plan"%c|"GP"|"GPP" PA "plan"%c "américain"%cd|"PA" PG "plan"%c "général"%cd|"PG" PL "plan"%c "large"%c|"PL" PM "plans?"%c "moyens?"%c|"PM" PN "pano"%c|"panoramique"%c PP ".?plu?sieurs|quelques|2|deux|3|trois|4|quatre|5|cinq|6|six|7|sept|8|huit|9|neuf|treize|nombreux"%c "plans"%c|"PP" BP "beaux"%c "plans"%cd PR "plan"%c "rapproché"%cd|"PR" TR "travel.*"%c|"trav"%c VA "vues?"%c "aériennes?"%cd|"VA" VE "vue"%c "d'"%c "ensemble"%c|"VE" VG "vue"%c "générale"%cd|"VG" VP "vue"%c "plongeante"%c|"VP" VS "vue"%c "semi"%c "générale"%cd|"VSG" ZO "zoom"%c|"ZAV"|"ZAR"
VG PN PN
VG 248 VG PP 103 PP 99 VG VG 76 GP 69 DP 65 PP PP 63 PN 51 VG GP 37 VG PP PP 36 PP PP PP 26 GP GP GP GP GP GP GP GP GP GP 24 VG VG VG 20 VG PN 19 TR 15 VG VG PP 15 GP GP 14 VG PM 14 PR 13 PR PP 13 VG PR 13 PM 12 etc.