Outils pour utilisateurs

Outils du site


public:data_sources

Sources de données

Objectif

Spécifications des différents moyens pour récupérer les données source à importer :

  • Système de fichiers :
    • répertoire, liste de répertoires - option : récursion
    • fichier, liste de fichiers
    • types de fichier : texte, tableau, archive zip, archive mail…
    • format de fichier : TXT, XML, CSV, ZIP…
  • URI/URL → spéc aspirateur web déjà écrite (dans un mail)
  • SGBDR
    • connecteur JDBC
    • fichier dump SQL
  • base XML
    • connecteur XQuery

Spécifications

Recursion

Dans l'import TXT :

slh:

Je pense qu'il faut :
a- soit arrêter temporairement la récupération récursive de .txt par le module TXT
b- soit ajouter une option d'import à TXT pour la récupération récursive de .txt
c- ajouter à tous les modules la récupération récursive de textes source
d- ajouter à tous les modules une option d'import pour la récupération récursive de textes source

Structure d'un répertoire de fichiers sources

TXM peut être plus ou moins strict sur la structure d'un répertoire de source et alerter l'utilisateur en concéquence :

  • des fichiers sources ignorés
  • des fichiers metadata ignorés (ex: un fichier CSV et un fichier ODS dans le meme répertoire)

Chaque module peut définir des règles spécifique de structure :

  • XTZ : autorise les répertoire xsl, css, img
  • etc.

Selection des fichiers sources

La sélection peut être faites sur les extensions de fichiers à partir d'une liste positive ou négative.

Le plus simple et compréhensible est la sélection à l'aide de listes positives poru chaque module d'import :

  • TXT+CSV : .txm
  • XML/w+CSV : .xml
  • Transcriber : .trs
  • etc.

Pour aider l'utilisateur, le test peut ignorer la casse.

Solution

Documentation

Utilisateur

Développeur

Recette

public/data_sources.txt · Dernière modification: 2020/06/04 11:00 par matthieu.decorde@ens-lyon.fr