TXM est livré avec des petits utilitaires échangeables et adaptables, qui prennent la forme de scripts écrits en langage Groovy1).
Des scripts Groovy utilitaires arrivant à maturité sont régulièrement transformés en macros de TXM pour devenir des utilitaires faciles d'accès. Et des macros arrivant à maturité sont régulièrement intégrées sous forme de commandes de base dans TXM.
Voir le manuel utilisateur de TXM pour plus d'informations sur l'usage des macros dans TXM.
Vous pouvez partager vos propres macros et leur documentation avec la communauté des utilisateurs de TXM par le biais de cette page (vous devez être inscrit à la liste de diffusion 'txm-users' pour cela).
La documentation est organisée en différentes thématiques :
Traitement par lot de conversion d'encodage de caractères pour tous les fichiers d'un dossier.
Paramètres
Macro affichant la liste des encodages de caractères connus du système (ainsi que leurs alias éventuels).
Pas de paramètres
Exemple de résultat (extrait)
== Character Encodings == *Name* (*Alias names*) Big5 (csBig5) Big5-HKSCS (big5-hkscs, big5hk, Big5_HKSCS, big5hkscs) ... ISO-2022-JP (csjisencoding, iso2022jp, jis_encoding, jis, csISO2022JP) ISO-2022-JP-2 (csISO2022JP2, iso2022jp2) ISO-2022-KR (csISO2022KR, ISO2022KR) ISO-8859-1 (819, ISO8859-1, l1, ISO_8859-1:1987, ISO_8859-1, 8859_1, iso-ir-100, latin1, cp819, ISO8859_1, IBM819, ISO_8859_1, IBM-819, csISOLatin1) ISO-8859-13 (iso_8859-13, ISO8859-13, iso8859_13, 8859_13) ISO-8859-15 (ISO8859-15, LATIN0, ISO8859_15_FDIS, ISO8859_15, cp923, 8859_15, L9, ISO-8859-15, IBM923, csISOlatin9, ISO_8859-15, IBM-923, csISOlatin0, 923, LATIN9) ISO-8859-2 (ISO8859-2, ibm912, l2, ISO_8859-2, 8859_2, cp912, ISO_8859-2:1987, iso8859_2, iso-ir-101, latin2, 912, csISOLatin2, ibm-912) ISO-8859-3 (ISO8859-3, ibm913, 8859_3, l3, cp913, ISO_8859-3, iso8859_3, latin3, csISOLatin3, 913, ISO_8859-3:1988, ibm-913, iso-ir-109) ISO-8859-4 (8859_4, latin4, l4, cp914, ISO_8859-4:1988, ibm914, ISO_8859-4, iso-ir-110, iso8859_4, csISOLatin4, iso8859-4, 914, ibm-914) ISO-8859-5 (ISO_8859-5:1988, csISOLatinCyrillic, iso-ir-144, iso8859_5, cp915, 8859_5, ibm-915, ISO_8859-5, ibm915, 915, cyrillic, ISO8859-5) ISO-8859-6 (ASMO-708, 8859_6, iso8859_6, ISO_8859-6, csISOLatinArabic, ibm1089, arabic, ibm-1089, 1089, ECMA-114, iso-ir-127, ISO_8859-6:1987, ISO8859-6, cp1089) ISO-8859-7 (greek, 8859_7, greek8, ibm813, ISO_8859-7, iso8859_7, ELOT_928, cp813, ISO_8859-7:1987, sun_eu_greek, csISOLatinGreek, iso-ir-126, 813, iso8859-7, ECMA-118, ibm-813) ISO-8859-8 (8859_8, ISO_8859-8, ISO_8859-8:1988, cp916, iso-ir-138, ISO8859-8, hebrew, iso8859_8, ibm-916, csISOLatinHebrew, 916, ibm916) ISO-8859-9 (ibm-920, ISO_8859-9, 8859_9, ISO_8859-9:1989, ibm920, latin5, l5, iso8859_9, cp920, 920, iso-ir-148, ISO8859-9, csISOLatin5) ... US-ASCII (ANSI_X3.4-1968, cp367, csASCII, iso-ir-6, ASCII, iso_646.irv:1983, ANSI_X3.4-1986, ascii7, default, ISO_646.irv:1991, ISO646-US, IBM367, 646, us) UTF-16 (UTF_16, unicode, utf16, UnicodeBig) UTF-16BE (X-UTF-16BE, UTF_16BE, ISO-10646-UCS-2, UnicodeBigUnmarked) UTF-16LE (UnicodeLittleUnmarked, UTF_16LE, X-UTF-16LE) UTF-32 (UTF_32, UTF32) UTF-32BE (X-UTF-32BE, UTF_32BE) UTF-32LE (X-UTF-32LE, UTF_32LE) UTF-8 (unicode-1-1-utf-8, UTF8) windows-1250 (cp1250, cp5346) windows-1251 (cp5347, ansi-1251, cp1251) windows-1252 (cp5348, cp1252) ... x-MacArabic (MacArabic) x-MacCentralEurope (MacCentralEurope) x-MacCroatian (MacCroatian) x-MacCyrillic (MacCyrillic) x-MacDingbat (MacDingbat) x-MacGreek (MacGreek) x-MacHebrew (MacHebrew) x-MacIceland (MacIceland) x-MacRoman (MacRoman) x-MacRomania (MacRomania) x-MacSymbol (MacSymbol) x-MacThai (MacThai) x-MacTurkish (MacTurkish) x-MacUkraine (MacUkraine) ... 171 encodings.
Dénombre tous les caractères d'un fichier Unicode UTF-8.
Paramètres
Dénombre tous les caractères des fichiers Unicode UTF-8 d'un répertoire.
Paramètres
Macro affichant la liste des polices de caractères connues du système.
Pas de paramètres
Exemple de résultat (extrait)
2776 fonts on this computer: Abyssinica SIL Andale Mono Andron Scriptor Web ... Arial Arial Black Arial Gras Arial Gras Italique Arial Italique ... Comic Sans MS Comic Sans MS Gras Courier Courier 10 Pitch Courier 10 Pitch Bold Courier 10 Pitch Bold Italic Courier 10 Pitch Italic Courier Bold Courier Bold Italic Courier Italic Courier New Courier New Gras Courier New Gras Italique Courier New Italique ... Junicode Junicode Bold Junicode Bold Italic Junicode Italic ... Times New Roman Times New Roman Gras Times New Roman Gras Italique Times New Roman Italique ... Ubuntu Ubuntu Bold Ubuntu Bold Italic Ubuntu Condensed Ubuntu Italic Ubuntu Light Ubuntu Light Italic Ubuntu Medium Ubuntu Medium Italic Ubuntu Mono Ubuntu Mono Bold Ubuntu Mono Bold Italic Ubuntu Mono Italic Ubuntu Thin ...
Affiche toutes les lignes des fichiers texte d'un répertoire contenant une expression régulière donnée.
Cette macro sert au réglage d'expressions régulières pour le traitement de sources.
Paramètres
Remarque : FindMultiLineRegExp est une version permettant de chercher des expressions sur plusieurs lignes.
Chercher/Remplacer par lot tous les fichiers d'un dossier.
Paramètres
Remarque : MultiLineSearchReplaceInDirectory est une version permettant de chercher et remplacer des expressions sur plusieurs lignes.
Éclate un fichier TXT en plusieurs fichiers en s'appuyant sur une expression régulière de ligne de séparation entre les textes. Les noms de fichiers créés peuvent s'appuyer sur des éléments de contenu des lignes de séparation.
Paramètres
Exemple d'application 1
soit le fichier fichierTest contenant trois textes séparés par une ligne de la forme a=… type=… :
a=1 type=a blah blah blah a=2 type=a blih blih blih blih blih blih a=3 type=b bloh bloh bloh
en appelant la macro avec les paramètres suivants :
on obtient trois fichiers :
blah blah blah
blih blih blih blih blih blih
bloh bloh bloh
Exemple d'application 2
Soit le même fichierTest, en appelant la macro avec les paramètres suivants :
on obtient trois fichiers :
blah blah blah
blih blih blih blih blih blih
bloh bloh bloh
Exemple d'application 3
Soit le même fichierTest, en appelant la macro avec les paramètres suivants :
on obtient trois fichiers :
a=1 type=a blah blah blah
a=2 type=a blih blih blih blih blih blih
a=3 type=b bloh bloh bloh
Exemple d'application 4
Pour éclater un fichier source au format IRaMuTeQ (ou Alceste) encodé avec deux mots étoilés, on peut utiliser les paramètres suivants4) :
Traitement par lot de conversion de format de tous les fichiers textes d'un dossier (.doc, .docx, .odt, .rtf, .html…) vers le format texte brut TXT. La transformation vers TXT est assurée par LibreOffice ou OpenOffice.
Paramètres
Prérequis
Remarque : les fichiers TXT résultants peuvent être importés dans TXM en les déposant dans un nouveau répertoire et en indiquant ce répertoire comme source du module d'import TXT+CSV.
Traitement par lot de conversion du format de MicroSyntaxe(*) encodé au sein de documents .docx vers le format XML-TEI (.xml) et le format texte brut (.txt).
Paramètres
Note :
* : syntaxe définie dans le document “Micro-Syntaxe-2022-08-01.pdf” (à paraître)
Prérequis
Les macros PDF sont livrées à partir de TXM 0.8.3, mais pour fonctionner elles nécessitent l'installation supplémentaire de la librairie Apache PDFBox® de traitement des PDFs5).
Pour installer la librairie Apache PDFBox dans TXM :
New library: [...]/scripts/groovy/lib/pdfbox-app-3.0.0.jar
Macro convertissant un ou plusieurs fichiers .pdf en .txt.
Paramètres :
Résultat :
Macro convertissant les pages d'un ou de plusieurs fichiers .pdf en fichiers d'images.
Utile pour construire des éditions synoptiques avec images de fac-similés en exploitant l'alignement par <pb/> dans le module d'import XML-TEI Zero + CSV.
Paramètres :
Résultat :
Extraction des propriétés d'un ou de plusieurs fichiers .pdf.
Utile pour avoir une vue d'ensemble de la façon dont un ou plusieurs fichiers .pdf ont été produits.
Paramètres :
Résultat :
Extraction des annotations PDF d'un ou de plusieurs fichiers .pdf dans un fichier .tsv.
Utile pour rassembler toutes les notes prises dans une base de données, un tableur ou un document Word.
Paramètres :
Résultat :
Macros de transformation d'un fichier tableur .xlsx, .ods, .tsv ou .csv, dont certains champs contiennent du texte, en un ou plusieurs fichiers XML importables dans TXM avec le module d'import XML-TEI Zero + CSV pour une analyse textométrique :
Deux macros sont disponibles :
Les fichiers XML résultats des macros transcode le tableau d'entrée de la façon suivante :
L'idée est de pouvoir comparer entre elles dans TXM des unités textuelles, correspondant au texte des réponses de répondants à une enquête par exemple, en s'appuyant sur leurs propriétés (issues de certaines colonnes, ou caractéristiques, de la ligne d'un répondant) et sur les mots qu'ils utilisent dans leurs réponses (issues d'autres colonnes, ou réponses textuelles à chaque question “textuelle” non fermée, de la ligne du même répondant).
.xml
01/02/2018
pour le 1er février 2018)identifiant | date de la réponse | âge | sexe | réponse à Q1 | réponse à Q2 |
id1 | 01/02/2018 | 23 | F | Réponse à la première question par le premier répondant. | Réponse à la deuxième question par le premier répondant. |
id2 | 02/02/2018 | 24 | H | Réponse à la première question par le deuxième répondant. | Réponse à la deuxième question par le deuxième répondant. |
id3 | 01/02/2018 | 25 | H | Réponse à la première question par le troisième répondant. | Réponse à la deuxième question par le troisième répondant. |
enquête.xml :
<?xml version="1.0" encoding="UTF-8"?> <enquete> <pb n="1"/> <reponse identifiant="id1" datedelareponse="01/02/2018" datedelareponsejour="01" datedelareponsejoursemaine="jeudi" datedelareponsemois="02" datedelareponseannee="2018" age="23" sexe="F"> <metadata><list type="unordered"> <item>identifiant : id1 </item> <item>date de la réponse : 01/02/2018 </item> <item>âge : 23</item> <item>sexe : F </item> </list></metadata> <reponseaq1><p><head><hi>réponse à Q1 : </hi></head>Réponse à la première question par le premier répondant. </p></reponseaq1> <reponseaq2><p><head><hi>réponse à Q2 : </hi></head>Réponse à la deuxième question par le premier répondant. </p></reponseaq2> </reponse> <pb n="2"/> <reponse identifiant="id2" datedelareponse="02/02/2018" datedelareponsejour="02" datedelareponsejoursemaine="vendredi" datedelareponsemois="02" datedelareponseannee="2018" age="24" sexe="H"> <metadata><list type="unordered"> <item>identifiant : id2 </item> <item>date de la réponse : 02/02/2018 </item> <item>âge : 24</item> <item>sexe : H </item> </list></metadata> <reponseaq1><p><head><hi>réponse à Q1 : </hi></head>Réponse à la première question par le deuxième répondant. </p></reponseaq1> <reponseaq2><p><head><hi>réponse à Q2 : </hi></head>Réponse à la deuxième question par le deuxième répondant. </p></reponseaq2> </reponse> <pb n="3"/> <reponse identifiant="id3" datedelareponse="01/02/2018" datedelareponsejour="01" datedelareponsejoursemaine="jeudi" datedelareponsemois="02" datedelareponseannee="2018" age="25" sexe="H"> <metadata><list type="unordered"> <item>identifiant : id3 </item> <item>date de la réponse : 01/02/2018 </item> <item>âge : 25</item> <item>sexe : H </item> </list></metadata> <reponseaq1><p><head><hi>réponse à Q1 : </hi></head>Réponse à la première question par le troisième répondant. </p></reponseaq1> <reponseaq2><p><head><hi>réponse à Q2 : </hi></head>Réponse à la deuxième question par le troisième répondant. </p></reponseaq2> </reponse> </enquete>
Obtenu avec la macro Table2XML appliquée au fichier enquête.xlsx avec les paramètres de conversion suivants :
Remarque : on voit que le paramètre choisi pour dateColumnList
a provoqué l'extraction des différents éléments composant la date en créant plusieurs propriétés :
Fichier / Importer / XML-TEI Zero + CSV
)Éditions > Nombre de mots par page
= 100000Plans textuels > Hors texte à éditer
= metadata
Avec le corpus ainsi construit on peut, par exemple, comparer des catégories de répondants entre elles en réalisant un calcul de spécificité de leur vocabulaire sur une partition. Par exemple sur une partition des valeurs de la propriété sexe
des structures reponse
:
reponse
et de sa propriété sexe
Première page de l'édition du texte correspondant au tableau enquête.xlsx (correspond à la première ligne du tableau).
1
Macros de transformation d'un fichier Excel .xlsx, dont certains champs contiennent du texte, en un fichier XML importable dans TXM avec le module d'import XML-TEI Zero + CSV pour une analyse textométrique :
Deux macros sont disponibles :
Le fichier XML résultat des macros transcode le tableau d'entrée de la façon suivante :
L'idée est de pouvoir comparer entre elles dans TXM des unités textuelles, correspondant au texte des réponses de répondants à une enquête par exemple, en s'appuyant sur leurs propriétés (issues de certaines colonnes, ou caractéristiques, de la ligne d'un répondant) et sur les mots qu'ils utilisent dans leurs réponses (issues d'autres colonnes, ou réponses textuelles à chaque question “textuelle” non fermée, de la ligne du même répondant).
[section obsolète : ces macros sont livrées dans TXM depuis la version 0.8.0, dans la section 'text']
<répertoire utilisateur>/TXM/scripts/macro/org/txm/macro/office
<répertoire utilisateur>/TXM/scripts/lib
.xml
01/02/2018
pour le 1er février 2018)enquete
)reponse
)identifiant | date de la réponse | âge | sexe | réponse à Q1 | réponse à Q2 |
id1 | 01/02/2018 | 23 | F | Réponse à la première question par le premier répondant. | Réponse à la deuxième question par le premier répondant. |
id2 | 02/02/2018 | 24 | H | Réponse à la première question par le deuxième répondant. | Réponse à la deuxième question par le deuxième répondant. |
id3 | 01/02/2018 | 25 | H | Réponse à la première question par le troisième répondant. | Réponse à la deuxième question par le troisième répondant. |
enquête.xml :
<?xml version="1.0" encoding="UTF-8"?> <enquete> <pb n="1"/> <reponse identifiant="id1" datedelareponse="01/02/2018" datedelareponsejour="01" datedelareponsejoursemaine="jeudi" datedelareponsemois="02" datedelareponseannee="2018" age="23" sexe="F"> <metadata><list type="unordered"> <item>identifiant : id1 </item> <item>date de la réponse : 01/02/2018 </item> <item>âge : 23</item> <item>sexe : F </item> </list></metadata> <reponseaq1><p><head><hi>réponse à Q1 : </hi></head>Réponse à la première question par le premier répondant. </p></reponseaq1> <reponseaq2><p><head><hi>réponse à Q2 : </hi></head>Réponse à la deuxième question par le premier répondant. </p></reponseaq2> </reponse> <pb n="2"/> <reponse identifiant="id2" datedelareponse="02/02/2018" datedelareponsejour="02" datedelareponsejoursemaine="vendredi" datedelareponsemois="02" datedelareponseannee="2018" age="24" sexe="H"> <metadata><list type="unordered"> <item>identifiant : id2 </item> <item>date de la réponse : 02/02/2018 </item> <item>âge : 24</item> <item>sexe : H </item> </list></metadata> <reponseaq1><p><head><hi>réponse à Q1 : </hi></head>Réponse à la première question par le deuxième répondant. </p></reponseaq1> <reponseaq2><p><head><hi>réponse à Q2 : </hi></head>Réponse à la deuxième question par le deuxième répondant. </p></reponseaq2> </reponse> <pb n="3"/> <reponse identifiant="id3" datedelareponse="01/02/2018" datedelareponsejour="01" datedelareponsejoursemaine="jeudi" datedelareponsemois="02" datedelareponseannee="2018" age="25" sexe="H"> <metadata><list type="unordered"> <item>identifiant : id3 </item> <item>date de la réponse : 01/02/2018 </item> <item>âge : 25</item> <item>sexe : H </item> </list></metadata> <reponseaq1><p><head><hi>réponse à Q1 : </hi></head>Réponse à la première question par le troisième répondant. </p></reponseaq1> <reponseaq2><p><head><hi>réponse à Q2 : </hi></head>Réponse à la deuxième question par le troisième répondant. </p></reponseaq2> </reponse> </enquete>
Obtenu avec les paramètres de conversion suivants :
Remarque : on voit que le paramètre choisi pour dateColumnList
a provoqué l'extraction des différents éléments composant la date en créant plusieurs propriétés :
Fichier / Importer / XML-TEI Zero + CSV
)Éditions > Nombre de mots par page
= 100000Plans textuels > Hors texte à éditer
= metadata,head
Avec le corpus ainsi construit on peut, par exemple, comparer des catégories de répondants entre elles en réalisant un calcul de spécificité de leur vocabulaire sur une partition. Par exemple sur une partition des valeurs de la propriété sexe
des structures reponse
:
reponse
et de sa propriété sexe
Première page de l'édition du texte correspondant au tableau enquête.xlsx (correspond à la première ligne du tableau).
1
[macro obsolète : il est recommandé d'utiliser la macro Excel2XML à la place]
Macro de transformation d'un tableau au format CSV, dont certains champs contiennent du texte, en un fichier XML importable dans TXM avec le module d'import XML/w+CSV pour une analyse textométrique. Cette macro est un premier prototype du futur module d'import de TXM de sources sous forme de tableau au format CSV, dans l'esprit du logiciel Dtm-Vic de Ludovic Lebart (cf Manuel d'Utilisation de Dtm-Vic, seconde édition (2013) section “IV. Importation, création et exportation des fichiers au format Dtm-Vic”) qui traite typiquement ce genre de sources.
Le fichier XML construit par la macro transcode le tableau d'entrée de la façon suivante :
L'idée est de pouvoir comparer dans TXM les unités textuelles entre elles, soit les répondants, en s'appuyant sur leurs propriétés (issues de certaines colonnes de la ligne, ou caractéristiques du répondant) et sur les mots qu'ils utilisent dans leurs réponses (issues de certaines colonnes de la ligne, ou réponses textuelles à chaque question “textuelle” non fermée).
Paramètres
Exemple de tableau d'entrée : sondage.csv
identifiant | age | sexe | reponse1 | reponse2 |
id1 | 23 | F | Réponse à la première question par le premier répondant. | Réponse à la deuxième question par le premier répondant. |
id2 | 24 | H | Réponse à la première question par le deuxième répondant. | Réponse à la deuxième question par le deuxième répondant. |
id3 | 25 | H | Réponse à la première question par le troisième répondant. | Réponse à la deuxième question par le troisième répondant. |
Fichier XML résultat : sondage.xml Avec les paramètres suivants :
<corpus> <text identifiant="id1" age="23" sexe="F"> <reponse1> Réponse à la première question par le premier répondant. </reponse1> <reponse2> Réponse à la deuxième question par le premier répondant. </reponse2> </text> <pb/> <text identifiant="id2" age="24" sexe="H"> <reponse1> Réponse à la première question par le deuxième répondant. </reponse1> <reponse2> Réponse à la deuxième question par le deuxième répondant. </reponse2> </text> <pb/> <text identifiant="id3" age="25" sexe="H"> <reponse1> Réponse à la première question par le troisième répondant. </reponse1> <reponse2> Réponse à la deuxième question par le troisième répondant. </reponse2> </text> <pb/> </corpus>
Le fichier XML résultat peut alors être importé dans TXM en le déposant dans un nouveau répertoire et en indiquant ce répertoire comme source de la commande 'Fichier / Importer / XML/w+CSV'.
On peut alors, par exemple, comparer les catégories de répondants entre elles en réalisant un calcul de spécificité du vocabulaire d'une partition sur la structure 'text' avec la propriété 'sexe'.
Fusion de tous les tableaux .xlsx d'un répertoire en un fichier unique.
Paramètres
Renomme tous les fichiers d'un répertoire ayant une certaine extension par chercher/remplacer dans leur nom. Cette macro repose sur l'utilisation du chercher/remplacer d'expression régulière de caractères avec reprise.
Paramètres
Exemple 1 : pour renommer des fichiers nommés 'document 1.txt', 'document 2.txt', 'document 3.txt' en 'texte001.txt', 'texte002.txt', 'texte003.txt' on utilise les paramètres suivants :
Exemple 2 : pour changer l'extension de fichiers '.tt' en '.txt' on utilise les paramètres suivants :
Macro déplaçant tous les fichiers dont le nom correspond à une regex (éventuellement récursivement).
Utile pour aplatir une arborescence de fichiers sources.
Paramètres :
Il est conseillé d'utiliser systématiquement le paramètre dryRun
pour régler, notamment le paramètre findRegex
, les paramètres AVANT de réaliser les déplacements effectifs.
Transforme tous les fichiers TXT d'un répertoire en fichiers XML. Les fichiers XML sont déposés dans un sous-répertoire résultat 'out'.
La macro transforme :
Elle n'ajoute aucun encodage XML supplémentaire.
Paramètres
Remarque : le répertoire résultat peut être importé dans TXM en l'indiquant comme répertoire source du module d'import XML/w+CSV.
Transforme tous les fichiers d'un répertoire ayant une extension '.cqp', au format source du moteur CQP, en fichiers XML compatibles avec l'import dans TXM avec un module XML. Les fichiers XML sont déposés dans un sous-répertoire résultat 'out' avec les mêmes noms mais avec une extension '.xml'.
La macro encadre le contenu du fichier avec deux balises <text id=“nom du fichier sans extension”> … </text>.
Paramètres
Import dans TXM
Le répertoire résultat peut être importé dans TXM avec le module d'import XML/w+CSV en réglant les paramètres de la façon suivante :
Transforme un fichier au format Taltac en un fichier au format XML pour être importé par le module XML-TEI Zero + CSV :
****yahoobanque1 *data=31gen *autore=da *rubrica=da *ora=08 *agenzia=reuters *grafici=da
devient :
<doc ident="yahoobanque1" data="31gen" autore="da" rubrica="da" ora="08" agenzia="reuters" grafici="da">
++++titolo Charges et dépréciations entraînent une perte pour Deutsche Bank ++++testo Deutsche Bank a fait état jeudi d'une perte avant impôts de 2,6 milliards d'euros pour le quatrième trimestre, sous le coup d'importantes charges de restructuration. ...
deviennent :
<titolo> Charges et dépréciations entraînent une perte pour Deutsche Bank </titolo> <testo> Deutsche Bank a fait état jeudi d'une perte avant impôts de 2,6 milliards d'euros pour le quatrième trimestre, sous le coup d'importantes charges de restructuration. ... </testo>
La macro transforme par ailleurs :
Le nom du fichier résultat est créé à partir du nom du fichier d'entrée en ajoutant le suffixe '.xml'.
Paramètres
Import dans TXM :
Calcul de la table des fréquences de toutes les balises et attributs XML utilisées dans les fichiers d'un dossier (utile pour une vue d'ensemble quantitative de l'usage des balises dans des documents dont on ne connait pas les principes d'encodage).
Paramètres
Vérification de la syntaxe des fichiers (.xml) d'un dossier.
Paramètres
Formatage des fichiers (.xml) d'un dossier pour en faciliter la lecture.
Paramètres
Traitement par lot de numérotation d'un élément XML de tous les fichiers XML d'un dossier.
Paramètres
Fonctionnement
Cette macro peut s'utiliser de deux façons,
... <pb n="1"/> ... <pb n="2"/> ... <pb n="3"/> ... etc.
... <pb facs="https://gallica.bnf.fr/iiif/ark:/12148/bpt6k35936/f102/full/full/0/native.jpg"/> ... <pb facs="https://gallica.bnf.fr/iiif/ark:/12148/bpt6k35936/f103/full/full/0/native.jpg"/> ... <pb facs="https://gallica.bnf.fr/iiif/ark:/12148/bpt6k35936/f104/full/full/0/native.jpg"/> ... etc.
Note : cette macro s'appuie sur XSLT en générant une feuille XSL à la volée. On peut s'en inspirer en modifiant la XSL générée pour réaliser différents traitements XSL depuis une macro.
Exemple de macro appelant une autre macro deux fois avec des paramètres différents.
Paramètres
Aucun.
Fonctionnement
Appelle la macro NumberElement pour une numérotation de pages, puis pour la désignation d'images de fac-similé en ligne.
Pour les fichiers source XML encodant déjà les mots avec des éléments “w” ou “pc”, force la valeur de leur attribut “id” à une valeur compatible avec le calcul du retour au texte de TXM.
Les valeurs d'attributs “id” pré-existantes sont sauvegardées dans l'attribut “foreign-id”.
Paramètres
Usage
À appliquer aux fichiers sources avant l'import dans TXM.
Traitement par lot d'application d'une feuille de transformation XSLT sur tous les fichiers XML d'un dossier.
Paramètres
Macro appliquant une feuille XSLT à un fichier.
Paramètres :
Ouvre le formulaire d'import de corpus avec un script Groovy point d'entrée. TXM possède un script point d'entrée par module d'import. Ils se trouvent dans le package “org.txm.scripts.importer” (répertoire TXMHOME/scripts/groovy/user/org/txm/scripts/importer).
Paramètres :
Récupère des informations dans les entêtes TEI de fichiers source pour construire un tableau de métadonnées “metadata.csv”.
Paramètres
Remarque : n'importe quel format XML peut être utilisé pour réaliser des extractions. Les requêtes XPath n'ont pas à être liées à la TEI et ne sont pas limitées à des sous-élements de teiHeader.
Exemple de fichier de paramètres “propertiesFile”, le fichier “est-republicain.properties” pour le corpus “Est républicain”13) :
date-edition-en-clair=/tei:TEI/tei:teiHeader/tei:fileDesc/tei:titleStmt/tei:title/tei:date/text() date-edition-formatée=/tei:TEI/tei:teiHeader/tei:fileDesc/tei:titleStmt/tei:title/tei:date/@when
Glose :
Le fichier “metadata.csv” résultant pour l'année 1999 (répertoire de sources “Annee1999”) a la forme suivante :
id,date-edition-en-clair,date-edition-formatée 1999-06-09,"9 juin 1999","1999-06-09" 1999-07-04,"4 juillet 1999","1999-07-04" 1999-07-10,"10 juillet 1999","1999-07-10" 1999-07-29,"29 juillet 1999","1999-07-29" 1999-08-07,"7 août 1999","1999-08-07" 1999-05-29,"29 mai 1999","1999-05-29" 1999-07-07,"7 juillet 1999","1999-07-07" 1999-09-19,"19 septembre 1999","1999-09-19" ...
Réécris le teiHeader des fichiers XML-TXM des textes de corpus à partir d'un fichier TSV de métadonnées, de règles de projection XPath et d'un fichier template teiHeader. Les fichiers XML-TXM des textes visés doivent être présents dans le corpus.
Paramètres :
<TEI> <teiHeader> <fileDesc> <titleStmt> <title type="main">[titre]</title> <title type="text_id">[id]</title> <author xml:id="anonyme">[auteur]</author> </titleStmt> </fileDesc> ... </teiHeader> </TEI>
titre=/tei:TEI/tei:teiHeader/tei:fileDesc/tei:titleStmt/tei:title[@type="main"] id=/tei:TEI/tei:teiHeader/tei:fileDesc/tei:titleStmt/tei:title[@type="text_id"] auteur=/tei:TEI/tei:teiHeader/tei:fileDesc/tei:titleStmt/tei:author ...
id corpus_id auteur titre text1 CORPUS1 txm le texte 1 text2 CORPUS1 txm le texte 2 text1 CORPUS2 txm le texte
Assistance à l'encodage et à la transformation de transcriptions en format texte (.doc, .odt, .rtf du logiciel Transana) vers le format XML du logiciel Transcriber pour l'import dans TXM avec le module d'import Transcriber+CSV.
Utilisation
Voir le Tutoriel d'import de transcriptions d'enregistrements dans TXM.
Paramètres
Transformation de fichiers de format XML Vocapia (.xml) vers le formation XML Transcriber (.trs).
Paramètres :
Assistance à la récupération et à la transformation des exports HTML du portail EuroPresse pour l'import dans TXM avec le module d'import XML/w+CSV.
Utilisation
Voir le tutoriel Europresse.
Paramètres
Exporte un corpus au format CoNLL2009.
Utilisation
Sélectionner le corpus à exporter dans la vue corpus, puis lancer la macro.
Paramètres
Conversion par lot ou par fichier du format Penn Treebank au format TIGER-XML.
Paramètres
[l'usage de ces macros est désormais remplacé par celui de l'import XML-TEI Zero + CSV]
Assistance au réglage des éditions de texte d'un corpus ayant des sources XML :
Utilisation
Voir le tutoriel de construction d'éditions synoptiques.
Paramètres
AddFacsAttribute :
FacsEditionBuilder :
EditionUpdater :
Exporte le contenu textuel des textes d'un corpus au format 'texte brut'14).
Paramètres :
Exporte les métadonnées de texte d'un corpus qui sont codés dans la structure “text” du corpus sélectionné.
Paramètres :
Macro exportant les données du résultat d'une AFC dans un tableur.
Paramètres :
Résultat :
Exemple de feuilles de données produites
Feuille de données de lignes :
label Q12 Q13 Q23 Masse Dist Cont1 Cos²1 Cont2 Cos²2 Cont3 Cos²3 c1 c2 c3 , 0,31 0,27 0,05 12,59 0 0,61 0,27 0,2 0,05 0,02 0 -0,02 0,01 0 . 0,67 0,67 0,07 3,76 0 1,52 0,64 0,17 0,04 0,2 0,03 -0,05 -0,01 -0,01 de 0,79 0,17 0,66 3,12 0 0,37 0,15 3,04 0,64 0,14 0,02 0,03 0,05 0,01 est 0,78 0,71 0,41 2,78 0 0,62 0,54 0,53 0,24 0,54 0,17 0,04 0,02 0,02 je 0,87 0,18 0,81 2,5 0,01 0,35 0,12 4,07 0,75 0,46 0,06 0,03 -0,07 -0,02 que 0,83 0,26 0,63 2,23 0 0,19 0,23 0,99 0,6 0,07 0,03 0,02 -0,04 0,01 ...
Feuille de données de colonnes :
label Q12 Q13 Q23 Masse Dist Cont1 Cos²1 Cont2 Cos²2 Cont3 Cos²3 c1 c2 c3 1 ∩ F 0,91 0,67 0,31 26,73 0,01 22,94 0,63 19,08 0,27 3,67 0,04 -0,07 -0,05 -0,02 1 ∩ M 0,91 0,33 0,71 28,48 0,01 9,12 0,27 42,73 0,64 5,78 0,06 -0,04 0,07 -0,02 2 ∩ F 0,59 0,13 0,62 12,21 0,01 0,68 0,05 13,64 0,54 2,72 0,08 0,02 -0,06 0,02 2 ∩ M 0,25 0,34 0,31 4,26 0,01 0,99 0,14 1,47 0,11 3,9 0,2 0,04 0,03 0,04 3 ∩ F 0,38 0,54 0,65 9,97 0,01 1,94 0,14 6,66 0,24 15,91 0,41 0,03 -0,04 0,06 3 ∩ M 0,22 0,76 0,79 5,89 0,02 2,4 0,1 6,03 0,13 44,92 0,66 0,05 0,05 0,13 4 ∩ F 0,81 0,92 0,2 7,43 0,04 37,37 0,77 3,94 0,04 20,46 0,15 0,17 -0,04 -0,08 4 ∩ M 0,88 0,81 0,14 5,03 0,03 24,55 0,77 6,45 0,11 2,64 0,03 0,17 0,06 -0,03 ...
Macro affichant les statistiques de différentes structures d'un corpus
Paramètres de la macro :
Résultat : Le résultat est un tableau TSV affiché dans la console. On peut l'exploiter avec un copier/coller dans Calc. Chaque ligne correspond à une structure du corpus. Les lignes sont ordonnées par ordre hiérarchique des structures du début à la fin du corpus. Les colonnes sont :
Exemple de résultats sur le texte “Essais sur la peinture” de Diderot avec les paramètres :
struct prop start end T t v fmin fmax index text DiderotEssais 46203 56871 10668 2011 903 1 38 [nature, couleur, homme, tableau, lumière, objets, œil, toile, art, effet, corps, artiste, ombre, ombres, deux, peintre, peinture, dessin, couleurs, tête] div 0 46214 49223 3009 549 327 1 16 [nature, homme, modèle, figure, deux, école, artiste, chose, âge, figures, dessin, actions, fois, professeur, action, attitude, manière, femme, col, tête] p 0 46220 46259 39 5 5 1 1 [nature, forme, cause, êtres, un] p 1 46260 46456 196 36 25 1 3 [yeux, col, épaules, gorge, femme, jeunesse, nature, accroissement, orbe, paupières, cavité, absence, organe, sourcils, joues, lèvre, mouvement, altération, parties, visage] p 2 46457 46578 121 28 26 1 2 [pieds, nature, regards, homme, dos, poitrine, forme, cartilages, col, vertèbres, tête, mains, articulation, poignet, coudes, arrière, membres, centre, gravité, système] p 3 46579 46622 43 5 4 1 2 [causes, effets, êtres, imitation] p 4 46623 46727 104 22 20 1 2 [ignorance, règles, effets, causes, convention, suites, peine, artiste, imitation, nature, pieds, jambes, genoux, têtes, tact, observation, phénomènes, liaison, enchaînement, difformités] p 5 46728 46797 69 10 6 1 4 [nez, Antinoüs, nature, difformité, altérations, reste] p 6 46798 46859 61 9 7 1 2 [règles, nature, homme, rue, chose, statue, proportions] p 7 46860 46942 82 13 11 1 2 [extrémité, pied, voile, bossu, Venus, Medicis, nature, figure, crayons, monstre, chose] p 8 46943 46982 39 11 11 1 1 [figure, système, suites, inconséquence, principe, production, art, mille, lieues, œuvre, nature] p 9 46983 47196 213 38 30 1 5 [homme, figure, âge, fonctions, mystères, art, artiste, proportions, despotisme, nature, condition, sacrifice, cent, manières, organisation, habitude, facilité, grandeur, proportion, membre] ... [13 paragraphes] ... div 1 49224 52163 2939 531 307 1 23 [couleur, nature, chair, artiste, toile, art, homme, yeux, œil, couleurs, tableau, harmonie, effet, dessin, palette, organe, ton, coloriste, vie, ami] p 24 49230 49258 28 7 7 1 1 [C', dessin, forme, êtres, couleur, vie, souffle] p 25 49259 49284 25 6 6 1 1 [maîtres, art, juges, dessin, monde, couleur] p 26 49285 49354 69 16 16 1 1 [dessinateurs, coloristes, littérature, Cent, froids, orateur, Dix, orateurs, poète, intérêt, homme, Helvétius, dix, bons, peine, mort] p 27 49355 49485 130 24 21 1 2 [artiste, besoin, échelle, ami, atelier, teintes, demi-, palette, quart, heure, travail, ordre, pendant, passage, auteur, bureau, ligne, livre, place, allure] p 28 49486 49680 194 46 42 1 2 [yeux, toile, chaos, œuvre, sentiment, couleur, bouche, palette, image, pinceau, création, oiseaux, nuances, plumage, fleurs, velouté, arbres, verdures, azur, ciel] p 29 49681 49967 286 48 43 1 3 [nature, organe, homme, arbre, artistes, chose, monde, variété, coloristes, couleur, disposition, doute, œil, couleurs, tableau, effets, rouges, blancs, tapisserie, murs] p 30 49968 50068 100 20 17 1 3 [fois, organe, peintre, ouvrage, littérateur, caractère, disposition, pente, homme, voix, explosion, état, silence, artiste, tableau, couleur, coloris] p 31 50069 50105 36 7 7 1 1 [coup, organe, affection, corps, vapeur, nature, imitation] p 32 50106 50267 161 26 19 1 4 [couleur, palette, artiste, effet, tableau, teintes, couleurs, idée, endroit, fois, appréciation, scène, composition, manie, travail, teinte, composé, substances, unes] p 33 50268 50319 51 7 7 1 1 [général, harmonie, composition, peintre, effet, pinceau, couleur] ... [etc.]
<répertoire utilisateur>/TXM/scripts/macro/org/txm/macro/commands
<répertoire utilisateur>/TXM/scripts/macro/org/txm/macro/cqp
<répertoire utilisateur>/TXM/scripts/lib
les 7 fichiers qu'elle contient :
La macro NIndex assiste le décompte de séquences de mots dans des corpus ou des sous-corpus. Elle généralise la commande Index de TXM 0.7.8 à N requêtes CQL. Les séquences sont fournies dans un fichier d'entrée (paramètre inputFile
), au format général d'une séquence par ligne. Trois formats de séquences sont proposés :
Cathédrale Notre-Dame rue de la Chanvrerie ...
Tour.* rue|avenue|boulevard de la [A-Z].*
"Cathédrale"%cd "Notre-Dame"%cd "rue|avenue|boulevard"%c "de"%c "la"%c [word="[A-Z].*"] ...
Dans les séquences de formes de mots et d'expressions régulières sur les formes de mots, les formes et les expressions régulières sont séparées par un caractère espace (pour chercher une forme contenant un espace il faut utiliser une expression régulière exprimant ce caractère Unicode).
Le type de séquences interprété par NIndex est déterminé par le paramètre inputIsCQL
. Si ce paramètre est sélectionné (vrai), les séquences sont interprétées comme des requêtes CQL ; sinon elles sont interprétées soit comme des formes soit comme des expressions régulières de formes en fonction du contenu de chaque ligne.
Le paramètre inputWordProperty
permet de choisir la propriété de mot qui sera utilisée pour les recherches de séquences de formes ou de séquences d'expression régulière de forme. Par exemple :
Le paramètre outputWordProperty
permet de choisir quelle propriété de mot sera utilisée pour réaliser le dénombrement des séquences trouvées. Par exemple :
Quand les séquences sont des requêtes CQL ou des expressions régulières, il est possible de regrouper les décomptes de leurs réalisations en sélectionnant le paramètre groupByQuery
. Dans ce cas il y a une fréquence par séquence dans le tableau de sortie.
Les corpus dans lesquels chercher sont soit sélectionnés dans la vue Corpus (avant de lancer la macro), soit fournis sous la forme d'une liste de noms de corpus à l'appel de la macro par une autre macro.
La macro NIndex écrit son résultat dans un fichier de sortie (paramètre outputFile
), deux formats sont proposés :
Quand le paramètre odsOutputFormat
est sélectionné la sortie se fait au format ODS, sinon TSV.
La sortie au format tableur est composée de deux feuilles :
groupByQuery
est sélectionné)groupByQuery
est sélectionné, au format nombre entierMacro affichant l'index hiérarchique des valeurs des propriétés d'une structure d'un corpus.
Paramètres :
Résultat :
Exemple de résultats sur le corpus VOEUX :
mitterrand 14 chirac 12 dg 10 giscard 7 pompidou 5 sarkozy 5 hollande 1
Macro affichant l'index des valeurs des propriétés de structures d'un corpus.
Paramètres :
Résultat :
Exemple de résultats sur le corpus VOEUX :
0001 1959 dg 0002 1960 dg 0003 1961 dg 0004 1962 dg 0005 1963 dg 0006 1964 dg 0007 1965 dg 0008 1966 dg 0009 1967 dg 0010 1968 dg 0011 1969 pompidou 0012 1970 pompidou 0013 1971 pompidou 0014 1972 pompidou 0015 1973 pompidou 0016 1974 giscard 0017 1975 giscard 0018 1976 giscard ...
Macro créant une partition à partir de requêtes CQL.
Paramètres :
Résultat :
Crée une partition à partir de requêtes CQL, comme l'onglet 'Avancé' de la boite de dialogue de création de partition, mais en gagnant les avantages suivants :
Paramètres
Utilisation
def NAME = "decennies"
def PARTNAMES = [ "60s", "70s", "80s", "90s", "2000s", "2010s", ]
def QUERIES = [ '[_.text_annee="(1959|196.)"] expand to text', '[_.text_annee="197."] expand to text', '[_.text_annee="198."] expand to text', '[_.text_annee="199."] expand to text', '[_.text_annee="200."] expand to text', '[_.text_annee="201."] expand to text', ]
Construit une partition en croisant les différentes valeurs de plusieurs propriétés de structure (les structures ne sont pas forcement les mêmes).
Utilisation
Sélectionner le corpus pour lequel produire la partition puis lancer la macro.
Paramètres
Attention structuralUnitList et structuralUnitPropertiesList doivent avoir le même nombre de valeurs
Macro créant un sous-corpus à partir d'une requête CQL.
Paramètres :
Résultat :
Permet de définir une liste de mots (ou plus généralement de valeurs de propriétés) utilisable dans les requêtes CQL.
Utilisation
Un tutoriel complet d'utilisation est disponible Tutoriel des listes CQL
Paramètres
A éditer directement dans le fichier script.
Permet de faire exécuter une ligne de commande au moteur CQP.
Utilisation
Les instructions d'utilisation se trouvent en commentaire au début du fichier script avec un rappel des commandes CQP utiles.
Paramètres
Affiche la liste des positions des matches d'un corpus.
Un match est composé d'une séquence de mots contigus dans le corpus.
Il est représenté par une paire (position de début-position de fin).
Le premier mot d'un corpus a la position 0 (zéro).
On peut distinguer 4 architectures types de listes de matches :
Utilisation
Sélectionner un corpus ou un sous-corpus dans la vue Corpus et lancer la macro.
Paramètres
Pas de paramètres.
Change la stratégie de résolution du moteur CQP des opérateurs ?, *, + appliqués aux occurrences, au cours d'une session de travail.
Par exemple :
the old book on the table in the room
[enpos="DET"]? [enpos="ADJ"]* [enpos="NN"] ([enpos="PREP"] [enpos="DET"]? [enpos="ADJ"]* [enpos="NN"])*
Retourne, selon la stratégie utilisée :
r1= book r2= table r3= room
r1= the old book on the table in the room
r1= the old book r2= the table r3= the room
r1= the old book r2= old book r3= book r4= the table r5= table r6= the room r7= room
La stratégie de résolution par défault est 'standard'.
Dessine l'histogramme des fréquences d'un index dans un SVG et l'affiche dans une fenêtre de TXM.
Utilisation
Il faut sélectionner un index (de corpus ou de partition) dans la vue Corpus avant de lancer la macro. Il n'y a pas de filtrage d'affichage, il faut donc filtrer l'index en amont de la macro. L'ordre des barres est celui des lignes de résultat de l'index.
Paramètres
Aucun
Appel la fonction “specificities.distribution.plot” du package textometry pour afficher la courbe de densité du modèle statistique des spécificités.
Utilisation
Pour plus de détail sur la fonction “specificities.distribution.plot”, voir la documentation du package
Paramètres
Calcule les spécificités pour une série de paramètres encodés dans un tableau d'entrée .tsv.
Paramètres
La sortie du résultat se fait dans la console. Chaque ligne contient :
Exemple de sortie pour le fichier d'entrée PlotSpecifFile-test-file.tsv ci-après :
f F t T mode comp sign P(f') P(f'<>mode) specificity specif 0 50 4588 41027 5 <= -1 2,6497221229401650e-03 2,6497221229401650e-03 -2,5767996682524030 -3 1 50 4588 41027 5 <= -1 1,6703661857721146e-02 1,9353383980661304e-02 -1,7132430866845856 -2 2 50 4588 41027 5 <= -1 5,1583704076928076e-02 7,0937088057589390e-02 -1,1491266431332714 -2 3 50 4588 41027 5 <= -1 1,0400653633624614e-01 1,7494362439383543e-01 -0,7571018802232574 -1 4 50 4588 41027 5 <= -1 1,5396428260777740e-01 3,2890790700161290e-01 -0,4829256858791818 -1 5 50 4588 41027 5 <= -1 1,7841141115462084e-01 5,0731931815623350e-01 -0,2947185999161574 -1 6 50 4588 41027 5 >= +1 1,6849694270949886e-01 4,9268068184376640e-01 0,3074344662071963 1 7 50 4588 41027 5 >= +1 1,3333620502165322e-01 3,2418373913426750e-01 0,4892087728970307 1 8 50 4588 41027 5 >= +1 9,0203058197723440e-02 1,9084753411261432e-01 0,7193134470756533 1 9 50 4588 41027 5 >= +1 5,2968295800483760e-02 1,0064447591489088e-01 0,9972100572931462 1 10 50 4588 41027 5 >= +1 2,7320022212937264e-02 4,7676180114407130e-02 1,3216985481858500 2 11 50 4588 41027 5 >= +1 1,2494611557525135e-02 2,0356157901469885e-02 1,6913041889899845 2 12 50 4588 41027 5 >= +1 5,1059166113863750e-03 7,8615463439447410e-03 2,1044920210610796 3 13 50 4588 41027 5 >= +1 1,8761809953822403e-03 2,7556297325583676e-03 2,5597791379653360 3 14 50 4588 41027 5 >= +1 6,2316398176235240e-04 8,7944873717612670e-04 3,0557894703740915 4 15 50 4588 41027 5 >= +1 1,8791465020861467e-04 2,5628475541377425e-04 3,5912772261863397 4 16 50 4588 41027 5 >= +1 5,1635557167868190e-05 6,8370105205159600e-05 4,1651337518246200 5 17 50 4588 41027 5 >= +1 1,2969168124566897e-05 1,6734548037291383e-05 4,7763860124702890 5 18 50 4588 41027 5 >= +1 2,9852443324605806e-06 3,7653799127244850e-06 5,4241911985666190 6 19 50 4588 41027 5 >= +1 6,3109630500386130e-07 7,8013558026390480e-07 6,1078299144330800 7 20 50 4588 41027 5 >= +1 1,2275515606641495e-07 1,4903927526004350e-07 6,8266992699699000 7 21 50 4588 41027 5 >= +1 2,2001238000211324e-08 2,6284119193628620e-08 7,5803065720317500 8 22 50 4588 41027 5 >= +1 3,6376494172115670e-09 4,2828811934172910e-09 8,3682639727103470 9 23 50 4588 41027 5 >= +1 5,5531884220164340e-10 6,4523177620572270e-10 9,1902842527353690 10 24 50 4588 41027 5 >= +1 7,8321185537632310e-11 8,9912934004079500e-11 10,0461778303739390 11 25 50 4588 41027 5 >= +1 1,0209155995647474e-11 1,1591748466447192e-11 10,9358510513480630 11 26 50 4588 41027 5 >= +1 1,2300610169134538e-12 1,3825924707997200e-12 11,8593058124897780 12 27 50 4588 41027 5 >= +1 1,3697369554674710e-13 1,5253145388626626e-13 12,8166405901487610 13 28 50 4588 41027 5 >= +1 1,4091683617090646e-14 1,5557758339519200e-14 13,8080529787416200 14 29 50 4588 41027 5 >= +1 1,3385552999241809e-15 1,4660747224285557e-15 14,8338438941482380 15 30 50 4588 41027 5 >= +1 1,1729403686669203e-16 1,2751942250437460e-16 15,8944236627275370 16 31 50 4588 41027 5 >= +1 9,4706244360308900e-18 1,0225385637682556e-17 16,9903203041363330 17 32 50 4588 41027 5 >= +1 7,0357338103777860e-19 7,5476120165166910e-19 18,1221904327541400 19 33 50 4588 41027 5 >= +1 4,8005156583804970e-20 5,1187820613890320e-20 19,2908333606921900 20 34 50 4588 41027 5 >= +1 3,0017226510615900e-21 3,1826640300853470e-21 20,4972092041628640 21 35 50 4588 41027 5 >= +1 1,7156468203614081e-22 1,8094137902375722e-22 21,7424621040816300 22 36 50 4588 41027 5 >= +1 8,9354152060230340e-24 9,3766969876164290e-24 23,0279501181961380 24 37 50 4588 41027 5 >= +1 4,2250496767934130e-25 4,4128178159339380e-25 24,3552840021172370 25 38 50 4588 41027 5 >= +1 1,8058222719998580e-26 1,8776813914052500e-26 25,7263780977426250 26 39 50 4588 41027 5 >= +1 6,9401317140656300e-28 7,1859119405392510e-28 27,1435181091425300 28 40 50 4588 41027 5 >= +1 2,3832472126611004e-29 2,4578022647362120e-29 28,6094530599313700 29 41 50 4588 41027 5 >= +1 7,2568228565192200e-31 7,4555052075111770e-31 30,1275229221103480 31 42 50 4588 41027 5 >= +1 1,9408572876666238e-32 1,9868235099195608e-32 31,7018407096754400 32 43 50 4588 41027 5 >= +1 4,5056925318567110e-34 4,5966222252936960e-34 33,3375611873987100 34 44 50 4588 41027 5 >= +1 8,9422306887752020e-36 9,0929693436984160e-36 35,0412942731033040 36 45 50 4588 41027 5 >= +1 1,4870174836615826e-37 1,5073865492321513e-37 36,8217753643596500 37 46 50 4588 41027 5 >= +1 2,0153580313585604e-39 2,0369065570568580e-39 38,6910288937712700 39 47 50 4588 41027 5 >= +1 2,1381136211861315e-41 2,1548525698297294e-41 40,6665824379393040 41 48 50 4588 41027 5 >= +1 1,6654043200946394e-43 1,6738948643597985e-43 42,7762718230824750 43 49 50 4588 41027 5 >= +1 8,4694444499292010e-46 8,4905442651591620e-46 45,0710644694993760 46 50 50 4588 41027 5 >= +1 2,1099815229961180e-48 2,1099815229961180e-48 47,6757213477809640 48
Exemple de fichier de paramètres d'entrée PlotSpecifFile-test-file.tsv
Il s'agit de tester différentes valeurs de spécificités en fonction du paramètre f de 0 à 50 dans les mêmes conditions (F=50, t=4588, T=41027).
0 50 4588 41027 1 50 4588 41027 2 50 4588 41027 3 50 4588 41027 4 50 4588 41027 5 50 4588 41027 6 50 4588 41027 7 50 4588 41027 8 50 4588 41027 9 50 4588 41027 10 50 4588 41027 11 50 4588 41027 12 50 4588 41027 13 50 4588 41027 14 50 4588 41027 15 50 4588 41027 16 50 4588 41027 17 50 4588 41027 18 50 4588 41027 19 50 4588 41027 20 50 4588 41027 21 50 4588 41027 22 50 4588 41027 23 50 4588 41027 24 50 4588 41027 25 50 4588 41027 26 50 4588 41027 27 50 4588 41027 28 50 4588 41027 29 50 4588 41027 30 50 4588 41027 31 50 4588 41027 32 50 4588 41027 33 50 4588 41027 34 50 4588 41027 35 50 4588 41027 36 50 4588 41027 37 50 4588 41027 38 50 4588 41027 39 50 4588 41027 40 50 4588 41027 41 50 4588 41027 42 50 4588 41027 43 50 4588 41027 44 50 4588 41027 45 50 4588 41027 46 50 4588 41027 47 50 4588 41027 48 50 4588 41027 49 50 4588 41027 50 50 4588 41027
Remarque : le contenu de ce tableau a été produit avec le script Groovy suivant :
51.times { println "$it 50 4588 41027" }
Ce traitement implémente le concept textométrique de “forme(s) de base” et “vocabulaire de base” (on parle quelquefois aussi de “forme banale” et de “banalité”), cf. par ex. Lafon 1980 p. 152, ou Lebart & Salem 1994 p. 176 - les références bibliographiques complètes sont dans la rubrique Documents de référence du site Textométrie. Une forme (un mot) de base est un mot qui n'est spécifique dans aucune partie. En pratique, la macro BasicVocabulary exporte dans un fichier tous les mots de base automatiquement repérés dans un tableau de spécificités, en fonction d'un indice (ou score) de spécificité maximum. Le tableau produit reprend les colonnes du tableau initial de spécificités en insérant en plus, après la colonne F (fréquence totale du mot), une colonne “score_max”, donnant le maximum des indices de spécificité (en valeur absolue) sur la ligne (sorte d'amplitude maximale de la spécificité du mot sur l'ensemble de parties considéré).
Utilisation
Il faut sélectionner un tableau de spécificités dans la vue Corpus avant de lancer la macro. Pour le choix du scoreMax :
Paramètres
Écrit les mots les plus spécifiques (positifs et négatifs) de chaque partie d'un résultat de spécificité dans un fichier.
Utilisation
Paramètres
Résultat
Format du fichier résultat :
[voir également la macro Specif2Throw plus récente et plus générale]
Affiche la probabilité a priori (avant de faire les lancés) d'obtenir N faces 'pile' consécutives en lançant une pièce au pile ou face, en regard avec la spécificité équivalente. On considère qu'une pièce a 50% de chances (1 chance sur 2) de tomber sur la face 'pile' à chaque lancé - la pièce n'est pas biaisée et les lancés sont indépendants.
Utilisation
Lancer la macro directement par double-clic.
Paramètres
La macro prend un seul paramètre et trois options :
La macro affiche - selon les options :
Les limites du calcul sont celles de la machine. Une machine 64-bit peut typiquement calculer la probabilité de 1023 lancés consécutifs.
Cette macro ouvre une carte de France interactive dans TXM, centrée sur une adresse donnée. Elle utilise les services web du Géoportail de l'IGN.
<répertoire utilisateur>/TXM/scripts/macro/org/txm/macro/map
<répertoire utilisateur>/TXM/results
, ceci doit créer le répertoire 'leaflet' dans le répertoire 'results' (là où sera générée la page HTML de chaque carte produite)Vous devez être connecté à Internet pour que la macro puisse fonctionner :
La macro prend deux paramètres :
rue de la Goutte-d'Or, Paris
ou
Lyon
Quand elle est lancée :
Remarque : les services web du Géoportail de l'IGN proposent deux ensembles de couches : en projection Mercator et en projection Lambert93. Cette macro propose un jeu de couches pris dans l'ensemble Mercator. On peut choisir d'autres couches en changeant le code de la macro. Votre clé d'accès détermine si vous pouvez accéder à telle ou telle couche.
Remarque2 : la récupération des informations depuis les serveurs de l'IGN peut être assez lente, en dizaines de secondes.
Cette macro met à jour l'édition d'une transcription importée avec le module d'import XML Transcriber+CSV pour pouvoir jouer le son de chaque énoncé depuis l'édition en cliquant dessus.
<répertoire utilisateur>/TXM/scripts/macro/org/txm/macro/edition
<répertoire utilisateur>/TXM/xsl
La macro prend deux paramètres :
Lancement :
Utilitaire d'ajout par lots de valeurs à une propriété de mots à l'aide d'une liste de requêtes CQL (à chaque CQL correspond une valeur de la propriété à ajouter), sans passer par une interface d'annotation interactive.
Une option permet de limiter l'ajout aux seuls fichiers pivots (XML-TXM) du corpus. Les annotations sont sauvegardées dans les fichiers pivots mais les index CQP et les éditions du corpus ne sont pas mis à jour. Ce mode de fonctionnement est prévu pour l'exploitation des fichiers pivots modifiés par d'autres outils (le corpus est alors dans un état instable).
Cet utilitaire appelle CQLList2WordAnnotations, sauvegarde les annotations puis met éventuellement à jour les index du moteur CQP et les éditions du corpus de sorte à ce que la nouvelle propriété soit utilisable directement par les outils de TXM appliqués au corpus.
Paramètres
Voir la documentation de l'utilitaire CQLList2WordAnnotations pour la description précise de l'usage des paramètres queries_file et word_property.
Utilitaire d'annotation par lots de mots par une liste de requêtes CQL, sans passer par une interface d'annotation interactive.
Paramètres
Cet utilitaire ajoute une nouvelle propriété d'annotation word_property à tous les premiers mots des matchs de chaque requête se trouvant sur une ligne du fichier TSV queries_file. La propriété d'annotation word_property prend pour valeur l'élément précédent la requête dans la ligne du fichier TSV queries_file.
Le fichier TSV queries_file contient un mot-clé et une requête CQL par ligne.
Chaque ligne a le format : valeur (ou mot-clé) ⇥ requête CQL
Le caractère séparateur de champs (symbolisé par '⇥') est la TABULATION.
Les lignes commençant par '#' sont ignorées (lignes de commentaires).
Exemple de fichier TSV [mot-clé, requête CQL] :
GP "gros"%c "plan"%c|"GP"|"GPP" PA "plan"%c "américain"%cd|"PA"
Glose :
Utilitaire d'annotation par lots de mots par une requête CQL, sans passer par une interface d'annotation interactive.
Paramètres
Cet utilitaire ajoute une nouvelle propriété d'annotation word_property à la valeur annotation_value à tous les premiers mots des matchs de la requête query.
L'utilitaire WordProperties2Word permet de recoder la surface textuelle d'un corpus, au sens où il produit une nouvelle version des fichiers pivots source XML-TXM d'un corpus TXM où seulement certains mots du corpus d'origine sont présents - en respectant l'ordre d'origine des mots du corpus. Les mots sont sélectionnés à partir d'une propriété particulière des mots d'origine (paramètre word_property de l'utilitaire). La valeur de cette propriété est utilisée pour encoder la forme graphique des mots du nouveau corpus, les autres propriétés de mots étant par ailleurs transférées aux nouveaux mots. Les mots d'origine n'ayant pas de valeur ou une valeur vide pour cette propriété sont ignorés dans la construction du nouveau corpus. Les structures et leurs propriétés sont transférées dans le nouveau corpus.
Le corpus peut alors être mis à jour pour bénéficier des nouveaux mots, ou bien le répertoire de sources XML-TXM produit peut être importé, par exemple, avec le module XTZ en l'équipant d'un répertoire de pré-traitement '2-front' avec la feuille XSLT 'txm-front-teitxm2xmlw.xsl' pour redresser les propriétés de mots.
Paramètres
Macros d'assistance à la correction ou à l'ajout de propriétés de mots.
Utilisation
Voir le tutoriel de correction de mots.
Macro installant une ou plusieurs macros dans TXM, ainsi que d'éventuels librairies '.jar' additionnelles.
Paramètres :
Résultat :
À chaque appel, les macros sauvegardent leurs valeurs de paramètres dans un fichier annexe nommé <nom de macro>Macro.properties, situé à côté du fichier de script de la macro. Le contenu de ce fichier est utilisé pour pré-charger le formulaire de paramètres avec ces valeurs lors de l'appel suivant de la macro. Ceci correspond à un mécanisme de mémorisation des valeurs de paramètres entre appels d'une même macro.
La macro ApplyParameters permet de désigner un fichier de valeurs de paramètres <nom de macro>Macro.properties pour faire utiliser les valeurs de paramètres qu'il contient par une macro désignée par son fichier de script.
Cela permet d'organiser plusieurs jeux de valeurs de paramètres pour une macro donnée, stockés dans des fichiers .properties indépendants. On peut alors appeler la macro avec différents jeux de valeurs à la demande. Pour créer un jeu de valeurs, il suffit de copier le fichier <nom de macro>Macro.properties initial créé par TXM au départ, et d'éditer son contenu avec un éditeur de texte, en respectant la syntaxe des fichiers .properties :
Exemple de fichier .properties de la macro GetXPath :
# #Mon Feb 25 11:16:45 CET 2019 lineNumber=true debug=false wrapLines=true filterByFileExtension=true XPath=//tei\:title/text() srcFile=/home/sheiden/Documents/tmp/test/01elements.xml fileExtension=.xml srcDirectory=/home/sheiden/Corpus/src/Hobbes/eeboOK
Paramètres
Affiche la version du navigateur interne TXM.
Affiche la hiérarchie des résultats d'un corpus et des informations complémentaires.
Affiche le numéro de version de l'interpréteur/compileur Groovy.
Affiche le numéro de version de la machine virtuelle Java.
Affiche le numéro de version de l'interpréteur interne Javascript.
Affiche les variables d'environnement utilisées dans TXM.
Affiche tous les réglages de TXM.
Affiche le numéro de version de l’interpréteur R de TXM.
Affiche des informations sur la version courante de TXM :
Affiche le numéro de version de l’interpréteur XSLT de TXM.
Permet de récupérer automatiquement la dernière versions des outils Antract pour TXM. La macro va récupérer les outils directement depuis les sources de TXM et copie les fichiers au bon endroit dans la vue Macro : “projects/antract”
Paramètres
aucun
Installation
Pas nécessaire depuis TXM 0.8.2.
Sinon récupérer la macro et la copier dans le répertoire des macros TXM :
Usage
Lancer la macro directement. Il faut être connecter à internet pour que TXM puisse récupérer les fichiers.
Tutoriel
Affiche la liste des identifiants Okapi des sujets d'un sous-corpus d'AF-VOIX-OFF ou d'AF-NOTICES.
Paramètres
Aucun
Usage
Sélectionner un sous-corpus d'AF-VOIX-OFF ou d'AF-NOTICES puis lancer l'outil.
Tutoriel
div@genre=“Presse filmée;Reportage;”
Créé un corpus Okapi à partir des identifiants de sujets d'un sous-corpus d'AF-VOIX-OFF ou d'AF-NOTICES.
Paramètres
Usage
Lancer l'outil sur un sous-corpus d'AF-VOIX-OFF ou d'AF-NOTICES, indiquer le nom du corpus Okapi à créer. Pendant la procédure, TXM va demander l'identifiant et le mot de passe Okapi. Une fois terminé, la console affiche l'identifiant Okapi du corpus et un lien web d'accès direct vers Okapi.
Tutoriel
div@genre=“Presse filmée;Reportage;”
AFE85001294|AFE85001326|AFE85007690|AFE85009829|AFE85009904|AFE86000447|AFE86000510|AFE86001276
et un lien d'accès direct au corpus Okapi “test txm reportages”Créé un sous-corpus TXM d'AF-VOIX-OFF ou d'AF-NOTICES à partir des identifiants de sujets d'un corpus Okapi.
Paramètres
Usage
Lancer l'outil sur AF-VOIX-OFF ou AF-NOTICES, indiquer la liste d'idenfiants et le nom du corpus TXM à créer. Une fois terminé, la console affiche un message pour confirmer la création du sous-corpus.
Tutoriel
P(f'<>mode).log10().abs().trunc().int()+1
en langage Groovy