XML/w import, progression dots and number of texts to process
FR
2 retours supplémentaires pour TXM 0.8.1 et le corpus d’Annabel.
-
la “ligne” de progression par points (.) ou pourcents dans la console ne fonctionne pas pour ce corpus de 11272 textes :
la ligne affiche 11272 points (je n’ai pas vérifié le nombre) au lieu de basculer en pourcentages -
J’ai eu besoin de limiter le nombre de textes importés entre deux appels du module d’import (premier import trop long).
le comportement entre deux phases du module n’est pas homogène :
a) une étape a bien vu qu’il y avait 85 textes
Sources cleaning & validation
………………………………………………………………………….
Files to process:
[/home/sheiden/TXM-0.8.1/corpora/JUPPE-LEDRIAN/txm/JUPPE-LEDRIAN/Darcos_00114.xml,
/home/sheiden/TXM-0.8.1/corpora/JUPPE-LEDRIAN/txm/JUPPE-LEDRIAN/Darcos_00115.xml,
/home/sheiden/TXM-0.8.1/corpora/JUPPE-LEDRIAN/txm/JUPPE-LEDRIAN/Darcos_00116.xml,
/home/sheiden/TXM-0.8.1/corpora/JUPPE-LEDRIAN/txm/JUPPE-LEDRIAN/Darcos_00117.xml…]
b) mais l’étape d’après considère toujours le nombre précédent de 11272
textes (comme lors de l’appel précédent de l’import) :
Tokenizing (words=true sentences=false) 11272 files
…………………………………………………………………………………………………………………………… […]
Au final on ne sait pas ce qui est fait…
Amélioration : j’imagine qu’il faut systématiquement regarder le nombre de fichiers dans le répertoire source (pas le mémoriser)
hypothesis
- the ConsoleProgressBar is not used (or broken)
- this may be a bug with temporary files not removed when corpus is imported or re-imported
Solution
- ConsoleProgressBar introduce in txt, xmlw and xml-txm import modules
- fixed XML/w importer step ->fix intermediate directory cleanning
(from redmine: issue id 2866, created on 2020/06/25 by Matthieu Decorde)