Liste de liens :
Liste de liens :
Un corpus TXM est composé de textes contenant des structures contenant des mots.
Les corpus, textes, structures et mots ont des propriétés.
Les textes peuvent bénéficier d'une ou plusieurs éditions.
Un corpus est créé par importation depuis des sources TXT, XML, etc. ou par chargement depuis un fichier de corpus binaire.
Tous les modules d'import, sauf CQP, doivent converger vers une représentation pivot XML-TXM avant l'indexation des mots et la production des éditions [ce n'est pas encore tout à fait le cas, notamment pour les textes synchonisés et les corpus parallèles].
On peut effectuer différents calculs sur un corpus :
Les commandes et les objets et résultats sont reliés par des hyperliens :
Voir la spécification des Corpus parallèles.
Voir la spécification des Corpus alignés.
Le workflow d'import utilise plusieurs états de représentation des textes :
Le workflow crée les textes, les structures, les mots et les éditions en plusieurs étapes :
Les structures sont interrogeables par CQP à partir du moment où elles sont représentées dans le WTC par une ligne de balise (ouvrante et fermante) et une propriété (au moins une quelconque).
Les mots sont interrogeables par CQP à partir du moment où ils sont représentées dans le WTC par une ligne de mot et une propriété (au moins la propriété 'word').
Les corpus sont organisés dans un “Workspace” qui utilise le “Workspace RCP”, qui repose sur le répertoire ~/TXM-<version>/corpora.
Le “Workspace” est organisé en “Projet”s qui contiennent les corpus.
Un “Projet” utilise un “Projet RCP”, qui repose sur un sous-répertoire de ~/TXM-<version>/corpora (du Workspace RCP).
Un corpus binaire est un “Projet” calculé par un module d'import. Après calcul, il contient des “CorpusIndex”s, des “Text”s et leurs “Edition”s.
Il y a deux implémentations de CorpusIndex :
Un CQPCorpus sert à gérer un corpus CQP ou ses sous-corpus CQP (résultat d'une requête ou chargement depuis un fichier externe).
Un MainCorpus sert à gérer les racines de hiérarchies de CQPCorpus.
Un MainCorpus doit correspondre au corpus CQP.
Les modules d'import créent :
À chaque fichier pivot XML-TXM “txm/T.xml” du “Projet RCP” correspond un “Text” (d'identifiant T).
Chaque “Text” contient 0 ou plusieurs “Edition”.
Les modules d'import créent :
Les modules d'import suivent la procédure générale suivante :
Commande “Importer/<nom du module d'import>“
Les paramètres d'import sont réglés via l'éditeur des paramètres d'import ouvert par la commande.
Ils sont enregistrés dans les paramètres du “Projet”.
Les paramètres sont persistés dans le noeud de préférences du scope PROJECT du “projet RCP” correspondant (répertoire ~/TXM-VERSION/corpora/<MONCORPUS>/.settings…).
La méthode “Projet.compute()” est appelée lorsque l'utilisateur appuis sur la flèche verte de l'éditeur des paramètres d'import. Le Projet est alors marqué “dirty” (pour forcer le recalcul du Projet).
La méthode “Projet.compute()” :
Commande Mise à jour
La commande :
Commande “Charger un corpus 0.8.0”
La commande :
Commande “Charger un corpus 0.7.9”
La commande :