Outils pour utilisateurs

Outils du site


public:umr_chs_antract

Différences

Ci-dessous, les différences entre deux révisions de la page.

Lien vers cette vue comparative

Les deux révisions précédentes Révision précédente
Prochaine révision
Révision précédente
public:umr_chs_antract [2018/09/18 14:37]
slh@ens-lyon.fr
public:umr_chs_antract [2019/10/09 10:11] (Version actuelle)
slh@ens-lyon.fr [Projet ANTRACT]
Ligne 14: Ligne 14:
  
 Le partenariat est composé de : Le partenariat est composé de :
-  * CHS/Paris +  * CHSParis 
-  * INA +  * INA, Paris 
-  * Voxolab +  * <​html><​strike>​Voxolab, Le Mans</​strike></​html>​ 
-  * EURECOM +  * EURECOM, Sophia Antipolis 
-  * IHRIM +  * IHRIM, Lyon 
-  * LIUM+  * LIUM, Le Mans 
 + 
 +===== Développement du corpus =====
  
 Le projet travaille à partir de plusieurs types de sources : Le projet travaille à partir de plusieurs types de sources :
   * vidéos (transfert des films de l'AF) : fichiers .mpeg, un fichier peut contenir plusieurs ou un seul sujet, un sujet peut être enregistré dans plusieurs fichiers   * vidéos (transfert des films de l'AF) : fichiers .mpeg, un fichier peut contenir plusieurs ou un seul sujet, un sujet peut être enregistré dans plusieurs fichiers
-  * notices documentaires de l'INA : fichiers Excel, un fichier par année, une ligne par sujet +  * notices documentaires de l'INA : fichiers Excel, un fichier par année, une ligne par notice (une colonne indique le type de notice : sommaire, ​sujet, ou isolée) 
-  * images des facsimilés (scan) du texte des commentaires (de la voix off des films de l'AF) : plusieurs ​journaux de l'​AF ​par fichier +  * images des facsimilés (scan) du texte des commentaires (de la voix off des films de l'AF) : il peut y avoir plusieurs ​sujets ​par fichier ​et plusieurs fichiers par sujet (un fichier = une image = une page, un sujet peut commencer en cours de page et se finir sur une page suivante) 
-  * transcriptions automatiques des commentaires (de la voix off des films de l'AF) : fichiers .mpegun fichier peut contenir plusieurs ​ou un seul sujet, un sujet peut être enregistré dans plusieurs fichiers ​(alignés sur les fichiers vidéo)+  * transcriptions automatiques des commentaires (de la voix off des films de l'AF) : fichiers .trs ou .xml (ou autreune douzaine de formats générés par l'​outil du Mans), alignés sur les fichiers vidéo ; si l'on a préalablement redécoupé les vidéos par sujet (cf. septembre 2018), alors on a une transcription par sujet (cf. octobre 2018), sinon les transcriptions sont comme les vidéos et peuvent ​contenir plusieurs ​sujetsde même qu'un sujet peut être réparti sur plusieurs fichiers.
  
-Les problématiques scientifiques sont en cours d'​établissement,​ en lien avec les outils ​premmettant ​de faire les analyses.+Les problématiques scientifiques sont en cours d'​établissement,​ en lien avec les outils ​permettant ​de faire les analyses.
  
 Dans le cadre de l'​analyse textométrique,​ on s'​intéresse de prime abord aux modalités textuelles du corpus. Dans le cadre de l'​analyse textométrique,​ on s'​intéresse de prime abord aux modalités textuelles du corpus.
  
-Différentes étapes d'​élaboration du corpus sont prévues : +  ​[[public:umr_chs_antract:​developpement_corpus|Développement du corpus]] (dans son ensemble
-  ​Corpus v0, janvier 2018 (pas une étape prévue du projet) +    * [[https://​groupes.renater.fr/​wiki/​txm-users/​public/​antract/​antract_corpus_notices|Développement ​du corpus ​des Notices ​(documentaires)]] 
-  * Corpus v1, août 2018 +    * [[https://groupes.renater.fr/wiki/txm-users/public/antract/antract_corpus_voixoff|Développement ​du corpus ​des Commentaires parlés ​(voix off)]] 
-  * Corpus v2, septembre 2019 +    * [[Développement ​du corpus des Commentaires ​écrits ​(tapuscrits)]]
-  * Corpus v3, mars 2020 +
-  * Corpus v4, août 2020 +
- +
-<​note>​ +
-On entend par **corpus** le "​corpus de données"​ dans son ensemble, c'est à dire pas forcément de corpus TXM en tant que tel, mais des différentes informations disponibles et qu'on se donne à voir et à analyser par TXM. Des corpus TXM seront bien sûr réalisés au fur et à mesure du projet en fonction des types de données et des analyses visées. +
-</​note>​ +
- +
-{{:public:antract_planning_txm_180130.png?​800|Schéma visualisant les différentes étapes de production de corpus ​TXM (diapo 17 de la présentation faite à la réunion de lancement à Paris le 30 janvier 2018}} +
- +
-====== Étape corpus v0 (janvier 2018) ====== +
- +
-===== Introduction ===== +
- +
-**//Ce qui est prévu ​dans le descriptif du projet//​** +
- +
-Rien à ce stade ! +
- +
-Il s'agit d'une initiative de l'​IHRIM,​ non prévue dans le document de projet (pas de livrable)+
- +
-**//Ce qui est réalisé//​** +
- +
-La première réalisation est un corpus TXM appelé AFNOTICES qui a été créé pour illustrer les possibilités de l'​outil à la réunion de lancement, le 30 janvier 2018 à Paris. Elle a porté sur des données déjà mises à disposition par l'INA : les notices documentaires. +
- +
-En complément,​ en avril 2018 , pour permettre aux participants d'​exploiter eux-mêmes le corpus sans attendre la formation TXM de l'​automne,​ et qu'ils puissent ainsi trouver directement des réponses à leurs questions documentaires,​ Serge a rédigé et diffusé un petit tutoriel pas-à-pas d'​exploitation du corpus des Notices des AF avec TXM. +
- +
-Le corpus TXM des Notices et le tutoriel se trouvent dans sharedocs à l'​adresse : ANTRACT/SP2 Corpus & Recherche technologique/​TXM/​Corpus notices documentaires. +
- +
-Une deuxième réalisation est un corpus TXM appelé AF-CMT-OCR-2-TT créé pour une expérimentation d'​import des OCR des commentaires,​ dans la première version de ceux-ci, pour avoir une idée de l'​exploitabilité -ou non- de ces documents dans l'​état de cette première version d'OCR (avant essais d'​amélioration). +
- +
-===== Notices documentaires ===== +
- +
-==== Historique des versions ==== +
- +
-Le binaire TXM utilisé pour la présentation du 30 janvier a été produit le 29. (Il faisait suite à une toute première version qui n'a servi qu'à le mettre au point.) +
- +
-Une seconde version du binaire a été produite le surlendemain de la réunion, 1er février, pour apporter tout de suite quelques améliorations : +
-  * l'​ajout de structures descripteur@type dans tous les champs ayant une forme de descripteur "DET : ... ;" +
-  * l'​ajout des propriétés *jour, *mois et *année sur les sujets (extraits de la date de diffusion), ainsi que le *jour de la semaine. +
-Le fichier correspondant (AFNOTICES-2018-02-01.txm) a été déposé dans sharedocs. +
- +
-==== Procédure d'​import ==== +
- +
-Le corpus source est au format Excel .xlsx. Une macro a été créée pour transformer ces tableaux Excel en fichiers XML pour import XTZ+CSV. Un certain nombre de colonnes sont transformées en métadonnées et d'​autres en parties textuelles. +
- +
-Les macros Excel2XML et ExcelDir2XML (évolution de CSV2XML) ont été publiées par Serge le 2 février 2018. La doc est à la place habituelle sur le  ​[[https://​groupes.renater.fr/​wiki/​txm-users/​public/​macros#​excel2xml_exceldir2xml|wiki txm-users, page de documentation des macros]]. +
- +
-==== Composition et structure ​du corpus ​==== +
- +
-Le corpus est structuré de la façon suivante : +
-  * chaque année ​(1945 à 1969correspond à un texte (text) du corpus TXM et à son édition [de +
-textedont chaque page correspond à un sujet (l'​année est notée dans deux propriétés de la structure "​text"​ : '​id'​ et '​annee'​). +
-  * chaque structure « sujet », au sein de chaque année, correspond à une ligne du tableau Excel +
-source. Cette structure « sujet » a pour propriétés certaines informations de colonnes +
-« métadonnées » du tableau Excel (voir ci-dessous) et pour sous-structures d’autres +
-informations « textuelles » de colonnes (voir plus bas) +
-  * chaque structure "​sujet"​ a pour propriétés (métadonnées) les informations issues de la notice : +
-    * identifiantdelanotice +
-    * identifiantmaterielsinfo +
-    * genre +
-    * duree +
-    * datedediffusion +
-    * datedediffusionannee [les propriétés suivantes ont été extraites de la '​datedediffusion'​+
-    * datedediffusionmois +
-    * datedediffusionjour +
-    * datedediffusionjoursemaine +
-    * n [numéro d'​ordre de la diffusion dans l'​année] ​[BP ? semble vide.] +
-  * chaque structure "​sujet"​ a pour sous-structures (contenus textuels) : +
-    * titrepropre +
-    * resume +
-    * descripteursafflig +
-    * descripteursaffcol +
-    * sequences +
- +
-Chaque sous-structure textuelle (le titre propre, le résumé, etc.) contient un paragraphe (structure '​p'​). +
- +
-Mais surtout, chaque champ de descripteur est composé d'​éléments '​descripteur'​ avec un type valant DEI, DEL (plutôt des lieux), DET (plutôt des moments) ou DSO (peu fréquent, semble concerner plutôt des oeuvres). +
- +
-==== Retours ==== +
- +
-Retours sur cette première version, en vue de l'​établissement d'une version ultérieure. +
- +
-=== BP, 2 février 2018 == +
- +
-**Traitements lors de l'​import** +
- +
-  * dates : années oui, mois peut-être, doutes sur utilité de jour et de jour de la semaine. Ajouter une date de diffusion pour disposer d'un tri chronologique via une seule métadonnée,​ type AAAAMMJJ ? +
-  * <​descripteur>​ : génial ! +
-ex. <​code>​ INDEX sur <​descripteur>​[_.descripteur_type="​DEI"​]<​/descripteur>​ </code> +
-ou sur +
-<​code>​ <​descripteur>​[_.descripteur_type="​DEI"​]{2,​}</​descripteur>​ </​code>​ +
-Mettre un point virgule pour séparer les différents descripteurs dans l'​édition ? +
-  * possibilité d'​aller à la ligne pour chaque tiret ou séquence de tirets dans <​sequences>​ (et <​resume>​),​ voire de découper en <p> ou <​item>​ selon les retours à la ligne des sources ? Les tirets ne sont pas toujours détachés, ex. +
-Identifiant de la notice : AFE01000301,​ Date de diffusion : 21/06/1951 +
-  * La page de l'​édition vise à correspondre au sujet, cf. documentation de la macro excel2xml. C'est commode. +
- +
-**Quelques observations sur le corpus** +
- +
-  * genres : tout est "​presse filmée",​ et une minorité de sujets sont quelque chose en plus (reportage, rétrospective,​ etc. -> 5 catégories mineures, certaines quasi vides -déclaration et rétrospectives). -> à observer en faisant une partition assistée sur sujet/genre et en ne créant que 5 classes en fonction du 2e genre. +
-Ce déséquilibre des genres fait que l'​exploitation de la métadonnée sera sans doute très limitée pour les études contrastives. +
-  * titrepropre +
-    * Vue sur les titres répétés :<​code>​INDEX de <​titrepropre>​[]+<​/titrepropre><​/code> +
-    * Vue sur les sujets dominants :<​code>​INDEX de [] within titrepropre</​code>​ +
-    * Vue d'​ensemble par AFC sur partition par année :<​code>​INDEX de [] within titrepropre,​ Fmin=50 +
-TABLE LEXICALE marges = index +
-  suppression des lignes des mots grammaticaux,​ des mois,  +
-  "​est"​%c (majoritairement verbe), M Monsieur MONSIEUR, +
-  fusion des lignes égales modulo la casse +
-AFC : l'​effet diachronique semble plutôt sur l'axe 2 +
-macro CAFilter170323 -> plante et semble corrompre l'AFC, + impossible de recalculer l'AFC [essayer de reproduire ?​]</​code>​ +
- +
-**À voir avec INA** +
- +
-  * amélioration ​du choix des éléments de texte et des métadonnées dans les rubriques des notices ?\\ Notamment,​ +
-    * supprimer un des deux champs descripteurs ? +
-    * mettre aussi les descripteurs en métadonnées ? (ensembliste,​ un peu moins évident à l'​usage) +
-    * meilleur identifiant pour faire le lien avec le fichier video ? (premier de "​Identifiant Matériels (info.)"​ ?) +
-  * export plus précis sur Résumé/​Séquences,​ qui distingue (sépare) mieux les deux ? En effet on retrouve des contenus de type Séquences dans des Résumés. (Sinon correction manuelle dans les xlsx avec repérage aidé par TXM ? -> Non car 6000 occ./​23114) +
-  * quelles indications donner pour pouvoir exploiter en édition synoptique les images des scans des tapuscrits du commentaire ​voix-off ? Genre : +
-sujet <-> texte commentaire <-> image(spage(s) +
- +
-=== JC, 6 juin 2018 === +
- +
-  * utiliser le contenu du champ "​Générique (Aff. Lig.)" comme métadonnée ou comme section textuelle ou les deux. +
-    * savoir quels opérateurs de prise de vue (OPV) était actif sur quelle période de temps +
-    * connaître les « participants » (PAR), c’est-à-dire souvent les personnes filmées +
-    * le champ « lien notice principale » permet d’associer les notices « sujet » (qui concernent un reportage) avec la notice « sommaire » qui décrit l’ensemble du programme. +
- +
-===== Tutoriel ===== +
- +
-Le tutoriel a été produit et diffusé début avril. Il s'​intitule "​Tutoriel d’exploitation documentaire ​du corpus des Notices documentaires de l'AF avec TXM" et compte une dizaine de pages. +
- +
-Le tutoriel introduit de façon minimaliste à TXM et aux exemples d'​exploration suivants : +
-  * les notices évoquant « De Gaulle » +
-  * les notices évoquant « De Gaulle » et « Paolo Bertoli » ensemble +
-  * le décompte des différents types de plans utilisés dans les notices +
-  * les notices évoquant un plan moyen ou un gros plan de « De Gaulle » +
-  * le décompte des différents types de plans évoquant « De Gaulle » +
- +
-===== Textes de Commentaires ​===== +
- +
-Une première version d'un corpus TXM des premiers OCR non vérifiés des commentaires dactylographiés ou typographiés,​ appelé AF-CMT-OCR-2-TT ​(Actualités Françaises - Commentaires - deuxième OCR - lemmatisé avec TreeTagger), a été réalisée. +
- +
-Le corpus est structuré par les 34 fichiers chronologiques. +
- +
-Le corpus source est au format TXT. +
- +
-Le corpus est déposé dans sharedocs dans le répertoire '​ANTRACT/​SP2 Corpus & Recherche technologique/​TXM/​Corpus OCR de commentaires'​. +
- +
-==== Retours ==== +
- +
-[SLHsi on avance sur ce corpus, il serait intéressant d'​essayer de faire évoluer deux choses, en plus des résultats de l'OCR : +
-  * a) la relation entre le texte d'OCR des commentaires et les images de pages : pour cela il faudrait avoir une information de délimitation des textes entre les pages. Ça peut peut-être venir d'​options du logiciel d'OCR : un fichier texte par image de page, un saut de page forcé par image de page, etc. à partir du moment où on peut lier le texte d'une image de page à cette image on peut alors produire une édition synoptique des textes qui affiche côte-à-côte le résultat d'OCR et l'​image de la page, pour pouvoir identifier les zones d'​image problématiques voire - dans certains cas - lire le texte dans l'​image alors que l'OCR n'a rien trouvé. Un peu à l'​image de cette édition synoptique du tour du monde en 80 jours hébergée dans notre portail TXM de démonstration : [[http://​portal.textometrie.org/​demo?​command=edition&​path=/​TDM80J&​textid=tdm80j&​editions=facs,​default&​pageid=4]+
-  * b) la relation entre le texte d'OCR des commentaires et les informations de sujets que nous avons par ailleurs. Cela supposerait de descendre au niveau des sujets dans les commentaires. C'est à dire de délimiter aux endroits marqués par des identifiants de sujets dans la marge. Par exemple 45003, 45004, 45005 etc. début 1945. À partir du moment où on pourrait établir cette liaison, on pourrait relier les textes et les métadonnées des notices sujets avec les textes des commentaires. Il faut bien sûr établir l'​intérêt d'​obtenir cela si on veut investir dans cette direction. +
- +
-====== Étape corpus v1 (août 2018) ====== +
- +
-===== Introduction ===== +
- +
-**//Ce qui est prévu dans le descriptif du projet//​** +
- +
-Prévu comme livrable (2.3.a) au mois 9 (août 2018), dans l'​idée de servir de corpus pour la formation TXM puis pour les premières analyses textométriques des historiens. Il doit également permettre de faire des retours utilisateurs pour orienter des développements de fonctionnalité et d'​interface financés par le projet. +
- +
-Il inclut non seulement les notices documentaires,​ mais aussi le "​texte"​ des actualités françaises : le commentaire voix off. +
- +
-Il est prévu qu'à cette date le commentaire soit disponible par l'OCR des images des pages du tapuscrit. +
- +
-On se propose donc de produire un corpus avec : +
-  * les métadonnées issues des notices documentaires +
-  * une édition synoptique du texte de la voix off et de la page de tapuscrit correspondante. +
- +
-**//Ce qui est réalisé//​** +
- +
-Le commentaire voix off peut venir en fait de deux sources : +
-  * Le projet prévoyait qu'à cette date serait disponible le commentaire tel que reconstitué à partir d'un **OCR des images des tapuscrits** : on dispose bien de premiers résultats d'OCR, mais ceux-ci semblent de médiocre qualité (il faudrait affiner le choix et le réglage des OCR) et de plus la correspondance entre les images des pages et les sujets des notices n'est pas faite (elle est envisagée plus tard, par un alignement avec la transcription). +
-  * En revanche dès fin mai 2018, le LIUM commence à livrer de premières **transcriptions automatiques de la bande son**, qui semblent fournir un texte de meilleure qualité, et bien découpé en sujets. +
- +
-Par ailleurs, d'​autres données non prévues commencent à être disponibles,​ on peut réfléchir à la faisabilité et l'​intérêt de les intégrer : +
-  * reconnaissance de la musique ou des voix (en distinguant femme/​homme) +
-  * des annotations des historiens sur la vidéo ? (envisagé mais pas du tout commencé encore, format encore indéfini, recueil peut-être via une interface INA, à voir) +
- +
-===== Voix Off ===== +
- +
-==== Introduction ==== +
- +
-Une première version d'un corpus TXM appelé AFOFF composé avec les premières transcriptions automatiques disponibles de la voix off des Actualités Françaises est en cours d'​élaboration. +
- +
-=== Choix des sources === +
- +
-Le corpus source est au format XML Vocapia ou XML Transcriber. +
- +
-Remarques : +
-  * TXM ne peut pas importer le format XML Vocapia directement +
-  * le Transcriber ne contient pas d'​informations au niveau du mot (comme le Vocapia) +
- +
-== Solution 1 : intégrer les informations au niveau du mot dans le Transcriber == +
- +
--> une demande est en cours pour intégrer les informations au niveau du mot dans la sortie Transcriber +
- +
-== Solution 2 : importer le XML Vocapia == +
- +
--> suppose le développement d'un nouveau module d'​import. Un prototype d'​import Vocapia a été réalisé dans le cadre de Matrice. Il faut préciser son niveau de développement et son statut. +
- +
-=== Métadonnées === +
- +
-La question se pose de pouvoir disposer, dès la première version de l'​import des transcriptions de voix off, des métadonnées des notices documentaires sujets. +
- +
-== Solution 1 == +
- +
-L'​unité documentaire "​transcription"​ correspond au sujet INA. Cela est compatible avec l'​architecture d'​import de TXM actuelle. +
- +
--> une demande est en cours pour produire les transcriptions au niveau du sujet +
- +
-== Solution 2 == +
- +
-Une table de fichiers + synchronisation des sujets est utilisée pour : +
-  * délimiter les sujets : séparer ou fusionner des fichiers +
-  * associer les métadonnées sujet aux transcriptions : au niveau des fichiers +
- +
--> suppose un développement en amont de l'​import +
- +
-=== Combinaison de données === +
- +
-Idéalement,​ il serait intéressant aussi de pouvoir associer les parties textuelles des notices avec la voix off pour le travail d'​analyse +
- +
-Les analyses types correspondantes seraient : +
- +
-== Analyse combinante 1 == +
- +
-  * je sélectionne les sujets contenant "​Brigitte Bardot"​ dans le résumé ou dans la séquence d'une notice +
-    * je construis le sous-corpus de la voix off ... +
-  * je calcule les mots spécifiques du sous-corpus de la voix off limité à ces sujets. +
- +
-== Analyse combinante 2 == +
- +
-  * je sélectionne les sujets contenant "​Brigitte Bardot"​ dans la notice sujet  et ne contenant pas "​Brigitte Bardot"​ dans la voix off +
-  * je lis la voix off correspondante +
-  * ou bien je calcule les mots spécifiques de ce sous-corpus,​ pour identifier par quoi le terme aurait éventuellement été souvent remplacé +
- +
-== Solutions dans TXM == +
- +
-Trois solutions possibles à court terme : +
- +
-1) En en faisant une autre partie du même texte +
- +
-On aurait : Titre, Résumé, Descripteurs,​ Séquences, Transcriptions de voix off. +
- +
--> l'​édition est potentiellement mixte : écrite + transcription +
--> la tokenisation est mixte +
- +
-2) Sinon, on peut avoir deux corpus : +
-  * un des notices (avec les parties textuelles des notices) +
-  * un des commentaires (avec les mêmes métadonnées que les notices) +
- +
--> on réalise soi-même l'​alignement dans des requêtes ad hoc +
- +
-3) Sinon, on peut avoir deux corpus alignés au niveau du sujet : +
-  * un des notices (avec les parties textuelles des notices) +
-  * un des commentaires (avec les mêmes métadonnées que les notices) +
- +
-=== Synchronisation === +
- +
-Pour l'​étape corpus v2 ou v3 la question pourra se poser d'​aligner Séquences et voix off par les timecodes.  +
- +
-==== Retours ==== +
- +
-\\  +
- +
-====== Étape corpus v2 (septembre 2019) ====== +
- +
-===== Introduction ===== +
- +
-**//Ce qui est prévu dans le descriptif du projet//​** +
- +
-Prévu comme livrable 2.3c) au mois 22 (septembre 2019), dans l'​idée de profiter des premiers développements de TXM dans le cadre du projet, notamment la consolidation du retour à la vidéo depuis le commentaire speech2text timecodé, et peut-être la prise en compte de premiers retours utilisateurs. +
- +
-Le corpus inclut donc : +
-  * les notices documentaires +
-  * le commentaire voix off +
-    * texte OCR - (alignement synoptique) -> images du tapuscrit +
-    * le texte speech2text - (lien hypertexte) -> vidéo +
- +
-**//Ce qui est réalisé//​** +
- +
-Il faudra voir si la composante OCR+images est satisfaisante,​ du point de vue de la qualité du texte et de l'​alignement sujets <-> sections de texte <-> images des pages. +
- +
-====== Étape corpus v3 (mars 2020) ====== +
- +
-===== Introduction ===== +
- +
-**//Ce qui est prévu dans le descriptif du projet//​** +
- +
-Prévu au mois 28 (mars 2020) (pas vraiment de livrable sinon le 2.3d au mois 30, mais qui correspond plutôt au corpus v4, cf. ci-après), il intègre tous les volets disponibles pertinents synchronisés. Il bénéficie également des améliorations et enrichissements de TXM développés suite aux retours utilisateurs (livrable 2.7a, même mois = version beta des modules de TXM développés dans le projet). +
- +
-Par rapport à la v2, il peut comporter par exemple les enrichissements suivants : +
-  * commentaires annotés en entités nommées +
-  * séquences timecodée +
-  * annotations sur la vidéo +
-  * etc. +
- +
-**//Ce qui est réalisé//​**+
  
-====== Étape corpus v4 (août 2020) ======+===== Développement de fonctionnalités ​=====
  
-===== Introduction =====+Les fonctionnalités sont développées dans le cadre du [[https://​groupes.renater.fr/​wiki/​txm-info/​public/​chantier_antract|chantier ANTRACT]] de TXM. 
 +==== Analyse multimodale / polysémiotique ​====
  
-**//Ce qui est prévu dans le descriptif du projet//** 
  
-Prévu au mois 33 (août 2020), c'est une mise-à-jour du corpus ​v3 avec les versions finales des différents volets (qui ont pu être améliorés sur la dernière période). Il bénéficie également des derniers correctifs sur le logiciel suite aux derniers retours utilisateurs (livrable 2.7b, au mois 32, juillet 2020).+  * [[public:​umr_chs_antract:​analyse_multimodal|Analyse de corpus ​multimodal / polysémiotique]]
  
-<note important>​ +===== Analyses ​du corpus ​=====
-**A la fin du projet il y a deux versions ​du corpus ​(v3 et v4) pour un seul livrable** +
-Le livrable 2.3d (au mois 30, mai 2020) est le "​corpus enrichi final",​ pour TXM il est détaillé en corpus v3 et corpus v4 pour permettre une dernière boucle de retours utilisateurs et prévoir le travail d'​intégration des toutes dernières versions des données avec la toute dernière version du logiciel (livrable 2.7b, au mois 32, juillet 2020). +
-</​note>​+
  
-Par rapport à la v2, il peut comporter par exemple les enrichissements suivants : +==== Standardisation des sujets des Actualités Française ====
-  * commentaires annotés en entités nommées +
-  * séquences timecodée +
-  * annotations sur la vidéo +
-  * etc.+
  
-**//Ce qui est réalisé//​**+  ​[[public:​umr_chs_antract:​analyses_corpus:​standardisation_sujets|Standardisation des sujets des Actualités Française]] (FM)
  
 ---- ----
 -> [[:|Retour à la liste des projets]]. -> [[:|Retour à la liste des projets]].
  
public/umr_chs_antract.1537274235.txt.gz · Dernière modification: 2018/09/18 14:37 par slh@ens-lyon.fr