Modifications corpus
- J'ai merge les trois corpus Ofis en un (OfisPublik_merged)
- J'ai mis les corpus KDE4, GNOME et OpenSubtitiles en ignore
- Il y avait quelques phrases (15) dans Breton_KEB qui étaient traduites en anglais. J'ai fouillé un peu pour comprendre, et dans le conllu les traductions anglaises étaient notées "fra" (avec la traduction française bien notée en dessous). Vu qu'il y en a pas beaucoup, j'ai pris les lignes concernées, je sais pas si y a moyen de contacter ceux qui ont réalisés le corpus pour corriger ça
🤔 (1212, 2365, 3032, 3532, 3602, 3807, 4175, 4901, 5112, 5202, 9777, 10624, 10865, 13609, 13650) - J'ai fait quelques modifications mineures sur make_datasets.py (juste pour qu'il print quelque chose histoire qu'il y est un retour) et make_jsonlines.py (pour qu'il supprime les fichiers dans data pour chaque corpus avant de les recréés)
- J'ai relancé make_jsonlines.py et make_datasets.py