make_datasets.py prend en compte train.jsonl/dev.jsonl/tune.jsonl pour les datasets et forme le dataset test.jsonl + ajout de filtre et harmonisation
Modifications de make_datasets.py
- Modifier pour qu'il puisse prendre en compte les noms train.jsonl, dev.jsonl et tune.jsonl en compte comme des corpus qui devaient être mis en intégralité dans les datasets train, dev ou tune respectivement (j'en ai profité pour qu'il assemble aussi les différents test.jsonl en un seul test.jsonl disponible à côté des autres datasets)
- Ajouter des filtres pour s'assurer de la qualité des données :
- Les phrases pour lesquelles les traductions française et bretonne sont strictement égales ne sont pas prises en compte
- Les phrases contenant des urls ne sont pas prises en compte
- Les phrases dont le ratio de caractères br/fr (ou fr/br) > 2 ne sont pas prises en compte
- J'en ai aussi profité pour faire un début d'harmonisation (notamment de "oe" et "œ" (et un caractère spécial qui a l'air d'une erreur d'encodage que je ne peux pas copié-collé, en tout cas Discord ne l'affiche pas) en "œ" et de "…" (1 caractère) et "..." (3 caractères) en "..." (3 caractères))