Outils pour utilisateurs

Outils du site


public:umr_icar

Différences

Ci-dessous, les différences entre deux révisions de la page.

Lien vers cette vue comparative

Les deux révisions précédentes Révision précédente
public:umr_icar [2015/10/10 14:18]
slh@ens-lyon.fr
public:umr_icar [2015/10/10 14:27] (Version actuelle)
slh@ens-lyon.fr
Ligne 60: Ligne 60:
 == Re-codage des re-tweets == == Re-codage des re-tweets ==
  
-Après identification,​ les re-tweets ​d'un certain niveau de profondeur ​sont recodés comme un seul tweet dans le fichier XML de sortie ​(il n'y a plus de répétition ​du contenu des re-tweets). +Les re-tweets sont filtrés en distinguant la profondeur ​de re-tweet ​(le nombre ​de personnes adressées en préfixe ​du tweet). On produit donc dans le corpus les types de tweets suivants : 
- +  ​* ​tweet direct (profondeur 0)sans préfixe 'RT @QuelquUn ​...' dans le contenu du tableau CSV 
-Pour un re-tweet donnéil peut y avoir +  * re-tweet de profondeur 1, avec un préfixe initial 'RT @QuelquUn : ...' ​dans le contenu du tableau CSV 
-  * un tweet de profondeur 1 dans le corpus +  * re-tweet de profondeur 2, avec un préfixe initial 'RT @QuelquUn : RT @QuelquUndAutre : ...' ​dans le contenu du tableau CSV 
-  * un tweet de même contenu ​de profondeur 2 dans le corpus +  * re-tweet de profondeur 3, avec un préfixe initial 'RT @QuelquUn : RT @QuelquUndAutre : RT @ÉventuellementQuelquUndAutre : ...' ​dans le contenu du tableau CSV
-  * un tweet de même contenu ​de profondeur 3 dans le corpus+
   * etc.   * etc.
 +
 +Pour chaque niveau de profondeur d'un re-tweet il n'y a pas répétition du tweet dans le corpus XML (contenu qui suit le préfixe et métadonnées). Donc 500 re-tweets de profondeur 1 d'un même tweet ne seront représentés que par un seul tweet dans le XML.
  
 Ceci limite fortement la duplication. Par exemple, pour le 7 janvier, les cinq re-tweets les plus populaires sont de profondeur 1 (ce ne sont que des re-tweets directs), ils apparaissent resp. 796, 569, 556, 333 et 261 fois. Ce sont : Ceci limite fortement la duplication. Par exemple, pour le 7 janvier, les cinq re-tweets les plus populaires sont de profondeur 1 (ce ne sont que des re-tweets directs), ils apparaissent resp. 796, 569, 556, 333 et 261 fois. Ce sont :
Ligne 78: Ligne 79:
 /WKjP8O0cAR /WKjP8O0cAR
 </​code>​ </​code>​
 +
 +Les préfixes de re-tweet sont retirés du contenu des tweets encodés en XML (note : on pourrait les laisser).
 +
 +La propriété '​retweetdepth'​ de la structure correspondant aux tweets code la profondeur de re-tweet (j'ai l'​impression qu'il y a un décalage de 1 du niveau de profondeur : 0 pour 1, 1 pour 2, etc.).
 +
 +Un tweet XML correspondant à une série de re-tweets d'un même niveau de profondeur n'​encode pas encore le nombre de tweets correspondants (celà nécessite une double passe des tweets que je n'ai pas implémentée).
  
 == Statistiques des re-tweets == == Statistiques des re-tweets ==
public/umr_icar.txt · Dernière modification: 2015/10/10 14:27 par slh@ens-lyon.fr