RCP: 0.7.8, fix pre-encoded word properties in XML/w+CSV
Currently, if a element in an XML source pre-encodes a property
possibly built by TreeTagger, the TreeTagger properties are added to the
word instead of not being touched (pre-encoding has priority over on the
fly annotations).
For example, the following XML source :
établissements membres et d’un organisme de recherche associé, l’INSERM.
<w frpos="PUN">■</w>
L’Université Claude Bernard, qui forme chaque année 40 000 étudiants dans les sciences
produces the following TXM text:
établissements membres et d’un organisme de recherche associé, l’INSERM. ■ L’Université Claude Bernard, qui forme chaque année 40 000 étudiants dans les sciences
Where the ‘■’ word properties are :
- frpos:PUN
- n:4516
- frpos:NOM
- frlemma:■
instead of the correct following TXM text:
établissements membres et d’un organisme de recherche associé, l’INSERM. ■ L’Université Claude Bernard, qui forme chaque année 40 000 étudiants dans les sciences
Where the ‘■’ word properties are :
- frpos:PUN
- n:4516
- frlemma:■
Solution
Add a new import parameter to activate or not the existing annotation correction see for details https://groupes.renater.fr/wiki/txm-info/public/annotation/tal\_treetagger
(from redmine: issue id 2059, created on 2017/03/07 by Serge Heiden)