RCP: X.X, annotation storage - analysis V1
Stratégies d’enregistrement :
- l’affectation d’annotation sur le corpus se reposant sur une sauvegarde temporaire dans la session de travail
- une opération de commit qui rend disponible les annotations
- l’exploitation d’annotation du corpus se reposant sur une nouvelle version interne du corpus
Sauvegarde définitive
Scénario C : On utilise les dernières étapes d’un module d’import :
“compiler” et “pager”.
Cela implique
- transférer les annotations de la base temporaire en propriétés de
structure englobant la séquence dans les fichiers XML-TXM du corpus
binaire.
- En parsant les fichiers XML-TXM en DOM
- qu’un corpus peut-être importé avec le module ‘XML-XTZ + CSV’
Optimisations :
- générer un fichier WTC par fichier XML-TXM puis les concaténer à l’appel de cwb-encode au lieu de régénérer un gros fichier WTC pour tout le corpus
- ne pas mettre à jour les fichiers/textes qui ne sont pas concernés par les annotations et ne pas leur appliquer les étapes compiler et pager
- on peut utiliser l’antériorité entre les dates de fichiers XML-TXM ->WTC | HTML pour implémenter cette stratégie
(from redmine: issue id 1562, created on 2015/10/12 by Matthieu Decorde)
- Relations:
- parent #1560 (closed)