Outils pour utilisateurs

Outils du site


public:antract:antract_corpus_plans

Corpus TXM des valeurs de plans AF-PLANS

Il s'agit des valeurs de plans décrits dans les notices de l'AF de l'INA.

Ces valeurs de plans sont exprimées par mots-clés, comme 'GP' pour 'gros plan', ou par des descriptions explicites, comme 'gros plan', avec des variantes.

Spécifications

Version 0 (avril 2020)

Créer une version du corpus AF-NOTICES où les mots des notices sont remplacés par des mots-clés de valeurs de plans, pour pouvoir utiliser tous les outils d'analyse textuelle de TXM sur les séquences de plans décrites par les documentalistes.

Version 1 (avril 2021)

Utiliser une version temporaire du tableau de CQLs/valeurs produit par FM et BP (la version 0 utilise un tableau expérimental de SLH, voir la recette).

Des CQL peuvent annoter plusieurs fois un même mot.

Version 2 (octobre 2021)

Certaines valeurs support sont à ignorer lors de la projection.

Utiliser une première version finalisée du tableau de CQLs/valeurs.

On utilise AF-NOTICES-V3 qui est plus complet que la version précédente.

Solutions

Version 0 (avril 2020)

Idées :

  • encodage : utiliser un pilotage automatique de l'annotation des mots du corpus source par requêtes CQL pour encoder toutes les variantes d'une même valeur de plan. Les annotations étant éditables, on peut modifier/supprimer/ajouter des annotations semi-automatiquement, par exemple par concordance, pour finaliser l'encodage.
  • projection : utiliser l'annotation CQP de mots d'un corpus source pour encoder les mots de la nouvelle surface textuelle d'un corpus cible. En utilisant le corpus AF-NOTICES comme corpus source contenant les descriptions de plans, on garde la même structure pour le corpus cible.
  • exploitation : la nouvelle surface permet d'utiliser les outils de la textométrie comme l'analyse des segments répétés.

De nouveaux outils génériques sont développés pour produire un nouveau corpus TXM à partir d'un corpus TXM existant contenant des annotations de mots qui seront utilisées pour produire les mots du second : https://groupes.renater.fr/wiki/txm-info/public/spec_corpus_alignes#c_pouvoir_creer_des_corpus_paralleles_depuis_un_corpus_existant_pas_forcement_parallele :

  • encodage : CQLList2WordProperties ajoute des propriétés (une valeur de plan ici) au premier mot des séquences de mots repérées par des CQL. Les CQL et leurs valeurs sont encodées dans un tableur
  • projection : WordProperty2Word crée de nouvelles versions de fichiers pivots XML-TXM d'un corpus existant (corpus source) en remplaçant les mots par des valeurs d'une propriété des mots d'origine (du corpus source). Les mots d'origine n'ayant pas cette propriété sont ignorés / supprimés. Toutes les structures du corpus source et leurs propriétés sont transférées dans le corpus cible.

Recettes

Version 0 (avril 2020)

  • Encodage : appliquer CQLList2WordProperties sur le corpus AF-NOTICES-V2 avec les paramètres suivants :
    • queries_file : fichier exemple 'plans-queries.tsv', contenant (copier le contenu de ce fichier depuis cette page)
      DP	"divers|différ.nts|autres"%cd "plans"%c|"DP"
      GP	"gros"%c "plan"%c|"GP"|"GPP"
      PA	"plan"%c "américain"%cd|"PA"
      PG	"plan"%c "général"%cd|"PG"
      PL	"plan"%c "large"%c|"PL"
      PM	"plans?"%c "moyens?"%c|"PM"
      PN	"pano"%c|"panoramique"%c
      PP	".?plu?sieurs|quelques|2|deux|3|trois|4|quatre|5|cinq|6|six|7|sept|8|huit|9|neuf|treize|nombreux"%c "plans"%c|"PP"
      BP	"beaux"%c "plans"%cd
      PR	"plan"%c "rapproché"%cd|"PR"
      TR	"travel.*"%c|"trav"%c
      VA	"vues?"%c "aériennes?"%cd|"VA"
      VE	"vue"%c "d'"%c "ensemble"%c|"VE"
      VG	"vue"%c "générale"%cd|"VG"
      VP	"vue"%c "plongeante"%c|"VP"
      VS	"vue"%c "semi"%c "générale"%cd|"VSG"
      ZO	"zoom"%c|"ZAV"|"ZAR"
    • word_property : plan
    • update_corpus_indexes_and_editions : décoché
  • Projection : appliquer WordProperty2Word sur le corpus AF-NOTICES-V2 avec les paramètres suivants :
    • outputDirectory : répertoire 'afnoticesplans' qui contiendra les fichiers XML-TXM de la nouvelle version du corpus
    • word_property : plan
  • Préparation des sources du corpus cible
    • créer un répertoire '2-front' dans le répertoire 'af-plans'
    • ajouter le fichier $TXMHOME/xsl/txm-front-teitxm2xmlw.xsl au répertoire '2-front'
  • Création du corpus cible avec le module d'import XTZ
    • lancer le module d'import XML-TEI Zero sur le répertoire 'af-plans' avec les paramètres suivants :
      • Segmentation lexicale
      • décocher le paramètre 'Tokenization'
      • Langue principale
        • décocher le paramètre 'Annoter le corpus'
      • Plans textuels
        • Hors texte : teiHeader
        • Hors texte à éditer : metadata,head,span
    • un nouveau corpus 'AF-PLANS' de 76,092 mots est créé
  • vérifier page 3 de l'édition, notice AFE86002936, que la section Séquences contient bien 3 plans :
    VG
    PN
    PN
  • passer la stratégie de résolution des opérateurs de Kleene du moteur CQP à 'longest'
    • lancer la macro cqp / SetMatchingStrategy avec le paramètre :
      • matchingStrategy : longest
  • analyser les séquences de plans longues qui se répètent : calculer les segments répétés au sein des séquences
    • lancer un Index sur le corpus AFNOTICESPLANS avec les paramètres :
      • requête : []{1,20} within sequences
      • Fmin : 2
    • on obtient :
      	VG	248
      	VG PP	103
      	PP	99
      	VG VG	76
      	GP	69
      	DP	65
      	PP PP	63
      	PN	51
      	VG GP	37
      	VG PP PP	36
      	PP PP PP	26
      	GP GP GP GP GP GP GP GP GP GP	24
      	VG VG VG	20
      	VG PN	19
      	TR	15
      	VG VG PP	15
      	GP GP	14
      	VG PM	14
      	PR	13
      	PR PP	13
      	VG PR	13
      	PM	12
      	etc.
  • comparer la répartition de ces segments au fil des années
    • faire la partition text@annee
    • lancer un Index sur la partition text@annee avec les paramètres :
      • requête : []{1,20} within sequences
      • Fmin : 2
    • lancer le calcul de Spécificités sur cet index
    • trier par fréquence globale décroissante
    • sélectionner les lignes jusqu'à la fréquence 13
    • on obtient le graphique suivant (cliquer 2 fois sur l'image pour la visualiser entièrement) :

Version 1 (avril 2021)

Même recette que la version 0 mais en utilisant des données sources réactualisées, se trouvant dans Sharedocs : SP2 Corpus & Recherche technologique/TXM/exploitation_des_corpus/2021_04_franck_grammaire_cinematographique/2021_04_20_v0_serge

  • CQLList2WordProperties
    • corpus : AFNOTICES-V2-2018-10-02.txm
    • queries_file : fichier 'gram-ciné-queries.ods'

L'application du workflow a produit les messages suivants dans la console :

%%% .........1.........2.........3.........4.........5.........6.........7.........8.........9.........10

[word="-*(DP|DV)"%c] created 407 00DP annotations.
%%% .........1.........2.........3.........4.........5.........6.........7.........8.........9.........10

[(resume|sequences) & word="-*(plan|vue)s?"%c] created 19443 00DP annotations.
%%% .........1.........2.........3.........4.........5.........6.........7.........8.........9.........10

(([word="-*(premier|1er|avant|second|deuxième|2ème|arrière|dernier)"%cd] | ([word="A"][word="V"])) @[word="plan"%c]) created 291 01HS annotations.
012 .........1..
([word="au"%c] @[word="plan"%c]) created 12 01HS annotations.
010 .........1
([word!="surimpressionnée?s?"%c][word="sur"%c][word="le"]@[word="plan"%c]) created 10 01HS annotations.
006 ......
([word="devant"%c][word="un|les|des"]@[word="plans?"%c]) created 6 01HS annotations.
032 .........1.........2.........3..
([(resume|sequences) & word="plan"%c][word="."]?[word="Monnet|Marshall?|Schuman|Courant|Pinay-Rueff|Challe"%c]) created 32 01HS annotations.
016 .........1......
([(resume|sequences) & word="plans?"%c][word="britanique|algérien|cadastra(l|ux)|architectura(l|ux)|mura(l|ux)|inclinés?|anciens?"%c]) created 16 01HS annotations.
007 .......
([(resume|sequences) & word="-*(plan|vue)s?"%c] [word="(microscopique|photographique|cinématographique)s?"%c]) created 7 01HS annotations.
004 ....
([word="miroirs?"%c][word="-"]? @[word="plans?"%c]) created 4 01HS annotations.
003 ...
([word="plan"%c] [word="en|\("] [word="carte|coupe|relief"%c]) created 3 01HS annotations.
007 .......
([word="plan"%c][word="d."][word="eau|vol"%c]) created 7 01HS annotations.
001 .
([word="plans"%c][word="d."][word="architectes?"%c]) created 1 01HS annotations.
011 .........1.
([(resume|sequences) & word="longues?"%c] @[word="vues?"%c]) created 11 01HS annotations.
012 .........1..
([word="perte|échanges?|point|gardé?e?"%c][word="de|à"]@[word="vues?"%c]) created 12 01HS annotations.
040 .........1.........2.........3.........4
([frlemma="consulter|déplier|discuter|étudier|examiner|montrer|regarder|tracer"%c]([]{0,3} [frpos=".*DET.*"%c])?@[word="plans?"%c]) created 40 01HS annotations.
010 .........1
([frlemma="prendre|masquer"%c & word!="prises?"%c][frpos=".*DET.*"%c]@[word="vues?"%c]) created 10 01HS annotations.
001 .
([word="plans?"%c][]?[frlemma="indiquer"]) created 1 01HS annotations.
003 ...
([frlemma="avoir"][]?@[word="vues?"]) created 3 01HS annotations.
%%% .........1.........2.........3.........4.........5.........6.........7.........8.........9.........10

[word="-*(VG|PG|GVG|CG)"%c] created 21656 10PG annotations.
%%% .........1.........2.........3.........4.........5.........6.........7.........8.........9.........10

([word="-*(plan|vues?)"%c][word="générale?s?"%c]) created 1327 10PG annotations.
%%% .........1.........2.........3.........4.........5.........6.........7.........8.........9.........10

[word="-*PANORAMA"%c] created 143 10PG annotations.
066 .........1.........2.........3.........4.........5.........6......
[word="-*VE"%c] created 66 10PG annotations.
073 .........1.........2.........3.........4.........5.........6.........7...
([word="-*(plan|vue)s?"%c][][word="ensemble"%c]) created 73 10PG annotations.
%%% .........1.........2.........3.........4.........5.........6.........7.........8.........9.........10

[word="-*(PL|PSG|VSG)"%c] created 210 11PL annotations.
008 ........
([word="-*(plan|vue)"%c][word="large"%c]) created 8 11PL annotations.
013 .........1...
([word="-*(plan|vue)s?"%c][word="semi.*"%c]) created 13 11PL annotations.
%%% .........1.........2.........3.........4.........5.........6.........7.........8.........9.........10

[word="-*(PM|VM)"%c] created 8754 12PM annotations.
%%% .........1.........2.........3.........4.........5.........6.........7.........8.........9.........10

([word="-*plans?"%c][word="moyens?"%c]) created 286 12PM annotations.
%%% .........1.........2.........3.........4.........5.........6.........7.........8.........9.........10

[word="-*(PA|PR|VR)"%c] created 2807 13PR annotations.
%%% .........1.........2.........3.........4.........5.........6.........7.........8.........9.........10

([word="-*(plan|vue)s?"%c][word="rapprochée?s?"%c]) created 220 13PR annotations.
028 .........1.........2........
([word="-*plans?"%c][word="proches?"%c]) created 28 13PR annotations.
019 .........1.........
([word="-*plan"%c][word="américain"%c]) created 19 13PR annotations.
%%% .........1.........2.........3.........4.........5.........6.........7.........8.........9.........10

[word="-*(GP|GPP)"%c] created 14763 14GP annotations.
%%% .........1.........2.........3.........4.........5.........6.........7.........8.........9.........10

([word="-*gros"%c]@[word="plans?"%c]) created 762 14GP annotations.
018 .........1........
[word="-*TGP"%c] created 18 15TGP annotations.
016 .........1......
([word="-*très"%c][word="gros"%c]@[word="plans?"%c]) created 16 15TGP annotations.
%%% .........1.........2.........3.........4.........5.........6.........7.........8.........9.........10

[word="-*VP"%c] created 177 20PLON annotations.
%%% .........1.........2.........3.........4.........5.........6.........7.........8.........9.........10

([word="-*(vg|p[pmg]|gpp?|plans?|vues?|pano(ramique)?s?|panorama|trav(el(l?ing)?)?|zoom)"%c | word="V[APEMFR]|P[RALE]|D[PV]|[PV]SG|ZA[VR]|GVG|CG|TGP"][]{0,2}[word="en"%c]@[word="plongée"%cd]) created 526 20PLON annotations.
063 .........1.........2.........3.........4.........5.........6...
([word!="-*contre"%c]@[word="plongée"%cd][word="sur"]) created 63 20PLON annotations.
%%% .........1.........2.........3.........4.........5.........6.........7.........8.........9.........10

([word="-*(vues?|v.)"%c][]?[word="plongeant.*"%c]) created 333 20PLON annotations.
070 .........1.........2.........3.........4.........5.........6.........7
[word="-*CPL"%c] created 70 21CPL annotations.
039 .........1.........2.........3.........
[word="-*contre-?plongée"%cd] created 39 21CPL annotations.
041 .........1.........2.........3.........4.
([word="-*contre"%c]@[word="plongée"%cd]) created 41 21CPL annotations.
%%% .........1.........2.........3.........4.........5.........6.........7.........8.........9.........10

[word="trav(elling)?"%c] created 503 30TRAV annotations.
%%% .........1.........2.........3.........4.........5.........6.........7.........8.........9.........10

[word="-*pano(ramiqué?e)?"%c] created 7019 31PANO annotations.
%%% .........1.........2.........3.........4.........5.........6.........7.........8.........9.........10

[word="-*PP"%c] created 10607 32PP annotations.
%%% .........1.........2.........3.........4.........5.........6.........7.........8.........9.........10

[word="-*VA"%c] created 1046 40VA annotations.
%%% .........1.........2.........3.........4.........5.........6.........7.........8.........9.........10

([word="-*(plan|vue)s?"%c][word="aérien(ne)?s?"%cd]) created 480 40VA annotations.
%%% .........1.........2.........3.........4.........5.........6.........7.........8.........9.........10

([word="-*(plan|vue)s?"%c][word="extérieure?s?"%cd]) created 203 50VE annotations.
069 .........1.........2.........3.........4.........5.........6.........
([word="-*(plan|vue)s?"%c][word="intérieure?s?"%cd]) created 69 51VI annotations.
059 .........1.........2.........3.........4.........5.........
[word="-*ZOOM"%c] created 59 60ZOOM annotations.
%%% .........1.........2.........3.........4.........5.........6.........7.........8.........9.........10

[word="-*(ZAV|ZAR)"%c] created 303 60ZOOM annotations.
%%% .........1.........2.........3.........4.........5.........6.........7.........8.........9.........10

([word="-*titres?"%c][]{0,3}[word="[:\"]"]) created 1832 70TI annotations.
%%% .........1.........2.........3.........4.........5.........6.........7.........8.........9.........10

(<sequences>[]{0,10}@[word="-*titres?"%c]) created 652 70TI annotations.
042 .........1.........2.........3.........4..
[(resume|sequences) & word="graphiques?"%c] created 42 71GR annotations.
018 .........1........
[frlemma = "flou"] created 18 72FLOU annotations.
/home/sheiden/Documents/projet-antract/projet-mazuet/gram-ciné-queries.tsv created 95567 annotations
Saving annotations...
Enregistrement de 90614 annotations...

Le résultat de l'application du workflow a produit deux nouveaux corpus :

  • AFNOTICES-gc-2021-04-20.txm : le corpus AFNOTICES-V2-2018-10-02 comprenant une nouvelle propriété de mot 'gc' (pour 'grammaire cinématographique') encodant les codes (pour vérifier l'annotation réalisée)
    • AFNOTICES-GC-2021-04-21.txm (nouvelle version du corpus)
  • AF-GC-2021-04-20.txm : le corpus AFNOTICES n'ayant que les codes comme mots (pour vérifier l'exploitation de séquences de codes)

Version 2 (septembre-octobre 2021)

Étape 1 : Annotation automatique d'AF-NOTICES par les valeurs de plan

  • Sélection du corpus AF-NOTICES-V3 et lancement de la macro annotation/CQLList2WordProperties (dernière version, du 21 septembre 2021), avec les paramètres :
    • queries_file : chemin vers le fichier cql_valeurs_de_plan_Franck_0713afr.tsv (à récupérer sur le sharedocs : ANR > ANTRACT > SP2 Corpus & Recherche technologique > TXM > corpus > plans > version2 > src)
    • word_property : plan
    • update_corpus_indexes_and_editions : <coché>
  • À la fin de la procédure, mettre une copie de côté des deux fichiers suivants : <code>$TXMHOME/corpora/AF-NOTICES-V3/txm/AF-NOTICES-2021-09-30/AFE86003756.xml $TXMHOME/corpora/AF-NOTICES-V3/txm/AF-NOTICES-2021-09-30/AFE86003548.xml</code> [Ce ne devrait plus être nécessaire avec la dernière correction de la macro WordProperty2Word utilisée à l'étape suivante.]

Étape 2 : Projection des valeurs de plan dans des fichiers XML

  • Sur le même corpus, application de la macro WordProperty2Word (dernière version, du 30 septembre 2021) avec les paramètres :
    • ouputDirectory : … AF-PLANS-V2-AAAA-MM-JJ (répertoire où seront créés les fichiers XML résultats -futur répertoire à importer par XTZ)
    • word_property : plan
    • values_to_ignore_regex : 01HS
    • debug : <décoché>
  • Vérifier si les fichiers signalés vides /home/bpincemi/TXM-0.8.1/corpora/AF-NOTICES-2021-09-30/txm/AF-NOTICES-2021-09-30/AFE86003756.xml /home/bpincemi/TXM-0.8.1/corpora/AF-NOTICES-2021-09-30/txm/AF-NOTICES-2021-09-30/AFE86003548.xml sont toujours là, sinon les rétablir avec la copie de sauvegarde. [Normalement obsolète avec la mise à jour de WordProperty2Word]

Étape 3 : Import XTZ pour générer le corpus AF-PLANS

  • Dans le répertoire AF-PLANS-V2-AAAA-MM-JJ utilisé ci-dessus, ajout d'un répertoire '2-front' contenant le fichier $TXMHOME/xsl/txm-front-teitxm2xmlw.xsl, et du fichier metadata.csv des sources du corpus AF-NOTICES-V3 utilisé.
  • Le cas échéant, retirer à la main du répertoire AF-PLANS-V2-AAAA-MM-JJ les fichiers des textes signalés vides (on y accède facilement en triant par taille.) <code>Removing empty <text>: AFE86003756 Removing empty <text>: AFE86003548</code> [Normalement obsolète avec la mise à jour de WordProperty2Word]
  • Lancer l'import XTZ sur le répertoire AF-PLANS-V2-AAAA-MM-JJ en laissant les réglages par défaut sauf les réglages spécifiques suivants :
    • Langue principale
      • décocher le paramètre 'Annoter le corpus'
    • Segmentation lexicale
      • décocher le paramètre 'Tokenization'
    • Editions
      • paginer
      • mots par page : 50000
    • Commandes
      • structures délimitant les contextes de concordances : div
    • Plans textuels
      • Hors texte : teiHeader
      • Hors texte à éditer : metadata,head,span
  • Une fois l'import terminé, déposer le fichier de documentation au format HTML ici :

$TXMHOME/corpora/AF-PLANS-V2-AAAA-MM-JJ/doc/index.html

Retours

Version 1 (avril 2021)

Retours de Bénédicte (juillet 2021)

0) Utiliser le jeu complet et finalisé de requêtes

Pour mémoire, cette version d'avril 2021 vise à tester les macros et utilise une version non finalisée du jeu de requêtes pour l'annotation : le tableau finalisé date du 13 juillet et sera à utiliser pour la version 1 du corpus. Il est disponible sur le sharedocs : ANR > Antract > SP2... > TXM > exploitation_des_corpus > 2021_04_franck_grammaire_cinematographique > 2021_09_xx_v1

1) Problème avec l'une des requêtes

L'annotation automatique est partielle pour la 3e requête :

(([word="-*(premier|1er|avant|second|deuxième|2ème|arrière|dernier)"%cd] | ([word="A"][word="V"])) @[word="plan"%c])

On devrait annoter 1520 occurrences, or lors du traitement de Serge (20 avril) ne sont traitées que 291 occurrences. Sur le Mac de Franck (Mac OS X Catalina 10.15.7), cette requête (lancée à la main dans un INDEX) ne tourne pas du tout, il obtient la stacktrace suivante (mail FM 07/07/2021 à 08:25) :

Index de <(([word="-*(premier|1er|avant|second|deuxième|2ème|arrière|dernier)"%cd] | ([word="A"][word="V"])) @[word="plan"%c])>, propriété @word, dans le corpus AFNOTICES...
org.txm.searchengine.cqp.serverException.CqiClErrorRegex: 
	at org.txm.searchengine.cqp.MemCqiClient.throwExceptionFromCqi(MemCqiClient.java:156)
	at org.txm.searchengine.cqp.MemCqiClient.throwExceptionFromCqi(MemCqiClient.java:67)
	at org.txm.searchengine.cqp.MemCqiClient.cqpQuery(MemCqiClient.java:409)
	at org.txm.searchengine.cqp.corpus.CQPCorpus.query(CQPCorpus.java:1360)
	at org.txm.index.core.functions.Index.scanCorpus(Index.java:769)
	at org.txm.index.core.functions.Index._computeLines(Index.java:218)
	at org.txm.index.core.functions.Index._compute(Index.java:187)
	at org.txm.core.results.TXMResult.compute(TXMResult.java:2441)
	at org.txm.core.results.TXMResult.compute(TXMResult.java:2327)
	at org.txm.rcp.editors.TXMEditor$4.run(TXMEditor.java:977)
	at org.eclipse.core.internal.jobs.Worker.run(Worker.java:56)
org.txm.searchengine.cqp.clientExceptions.CqiClientException: org.txm.searchengine.cqp.serverException.CqiClErrorRegex: 
	at org.txm.searchengine.cqp.corpus.CQPCorpus.query(CQPCorpus.java:1370)
	at org.txm.index.core.functions.Index.scanCorpus(Index.java:769)
	at org.txm.index.core.functions.Index._computeLines(Index.java:218)
	at org.txm.index.core.functions.Index._compute(Index.java:187)
	at org.txm.core.results.TXMResult.compute(TXMResult.java:2441)
	at org.txm.core.results.TXMResult.compute(TXMResult.java:2327)
	at org.txm.rcp.editors.TXMEditor$4.run(TXMEditor.java:977)
	at org.eclipse.core.internal.jobs.Worker.run(Worker.java:56)
Caused by: org.txm.searchengine.cqp.serverException.CqiClErrorRegex: 
	at org.txm.searchengine.cqp.MemCqiClient.throwExceptionFromCqi(MemCqiClient.java:156)
	at org.txm.searchengine.cqp.MemCqiClient.throwExceptionFromCqi(MemCqiClient.java:67)
	at org.txm.searchengine.cqp.MemCqiClient.cqpQuery(MemCqiClient.java:409)
	at org.txm.searchengine.cqp.corpus.CQPCorpus.query(CQPCorpus.java:1360)
	... 7 more

Cependant Bénédicte ne reproduit pas le bug. Pour TXM 0.8.1 sous ubuntu (update 2021-04-26 17h31 - build 2020-06-29 09h05) comme sous windows (update 2021-01-14 12h01 - build 2020-06-29 09h05) :

  • la requête fonctionne (1520 occurrences)
  • l'annotation manuelle fonctionne.
  • sous linux, la macro CQLList2WordProperties traite bien les 1520 occurrences correspondant à la requête, et toutes les autres requêtes semblent bien fonctionner aussi.

2) Lacunes dans le corpus AFNOTICES V2 d'octobre 2018

Les tableaux INA utilisés pour cet import sont incomplets pour les dernières années (ex. il manque tout le 2e semestre 1968). Il faudrait repartir d'un corpus AFNOTICES construit avec le tableau du 3 octobre 2019 (celui utilisé pour les derniers AF-VOIX-OFF), qui ne présente pas ces lacunes.

3) Il y aurait besoin de faire évoluer la macro de projection

Pour l'annotation par requêtes, on a eu besoin de créer une annotation 01HS (“hors-sujet”), mais on aurait besoin de ne plus l'avoir lorsque l'on étudie les successions de valeurs de plan. Une solution envisagée serait d'avoir un nouveau paramètre qui permettrait d'indiquer des valeurs de la propriété de projection à ne pas considérer (ou à l'inverse, le sous-ensemble des valeurs à projeter).

4) Difficultés à reproduire la qualité des corpus produits par Serge le 20 avril 2021

Bénédicte n'a pas la dernière version de la macro CQLList2WordProperties, les messages dans la console ne sont pas les mêmes que ceux obtenus par Serge, ceux de Serge indiquent la valeur de l'annotation ajoutée, par ex. pour Serge :

(([word="-*(premier|1er|avant|second|deuxième|2ème|arrière|dernier)"%cd] | ([word="A"][word="V"])) @[word="plan"%c]) created 291 01HS annotations.

et pour Bénédicte

(([word="-*(premier|1er|avant|second|deuxième|2ème|arrière|dernier)"%cd] | ([word="A"][word="V"])) @[word="plan"%c]) created 1520 annotations.

Par ailleurs Bénédicte passe par un enregistrement standard des annotations, qui effectue un réimport, mais ne sait pas reconstruire les éditions un peu enrichies que nous avons dans AFNOTICES (on perd l'affichage des métadonnées et les intitulés des différents champs de la notice : Titre propre, résumé, séquences, etc.).

public/antract/antract_corpus_plans.txt · Dernière modification: 2021/09/30 19:12 par slh@ens-lyon.fr