tâches 04 mai
Obtenir données pour toutes les émotions
- La sortie que vous avez produite cette semaine est informative pour interpréter les scores (puisqu'elle donne le texte) et il faut la garder, mais il nous faudrait d'autres sorties qui aideront pour des analyses additionnelles
- Pour chaque bloc, il faudra être en mesure de connaître les scores pour chaque émotion et dimension VAD
- La sortie pourrait prendre la forme suivante :
- Un dataframe avec des ID de blocs dans la première colonne, les mots d'émotion trouvés dans le bloc dans la deuxième colonne, et leurs scores pour chaque émotion et dimension VAD dans les colonnes restantes
Statistiques
- Sur la base du dataframe décrit ci-dessus, il serait possible d'obtenir les moyennes de chaque émotion et dimension VAD par bloc (avec
groupbysur les IDs des blocs) - On pourrait comparer ces moyennes en français vs. alsacien
- Coefficient de corrélation entre les deux distributions par bloc pour chaque émotion et dimension VAD
- Y-a-t-il une différence significative entre français et alsacien pour chaque émotion par bloc ?
- À voir quel test statistique serait le plus adapté
Projeter lexiques français complets sur le Herr Maire français
Pour le français, au lieu de travailler avec la colonne française de ELAL, il faudra travailler avec d'autres lexiques spécifiques au français.
Il faudra trouver les occurrences des expressions des lexiques suivants dans le Herr Maire français:
- NRC Emotion Intensity français : https://seafile.unistra.fr/lib/c0f4ff1a-7050-4a5e-82d9-75b38fdbc34d/file/ressources/lexique_NRC/NRC-Suite-of-Sentiment-Emotion-Lexicons/NRC-Suite-of-Sentiment-Emotion-Lexicons/NRC-Sentiment-Emotion-Lexicons/NRC-Emotion-Intensity-Lexicon-v1/OneFilePerLanguage/French-fr-NRC-Emotion-Intensity-Lexicon-v1.txt
- NRC VAD français : https://seafile.unistra.fr/lib/c0f4ff1a-7050-4a5e-82d9-75b38fdbc34d/file/ressources/lexique_NRC/NRC-Suite-of-Sentiment-Emotion-Lexicons/NRC-Suite-of-Sentiment-Emotion-Lexicons/NRC-Sentiment-Emotion-Lexicons/NRC-VAD-Lexicon/OneFilePerLanguage/French-fr-NRC-VAD-Lexicon.txt
- FEEL.csv : https://seafile.unistra.fr/lib/c0f4ff1a-7050-4a5e-82d9-75b38fdbc34d/file/ressources/lexique_FEEL_abdaoui_et_al/FEEL.csv
Si les termes des lexiques français trouvés dans le Herr Maire français ne sont pas dans la colonne ELAL pour le français, il faut garder une trace de ça quelque part, en stockant les informations suivantes:
- l'ID du bloc
- les termes français non-trouvés dans ELAL dans chaque bloc
- les termes français trouvés dans ELAL dans le bloc
- les termes alsaciens ELAL trouvés dans le bloc alsacien correspondant
- le texte du block (tant français qu'alsacien)
Ça pourrait être un dataframe avec une colonne pour chaque type d'information mentionné ci-dessus. Pour le texte, il peut-être tout dans la même cellule avec une séparateur pour qu'on sache où chaque ligne finit. (P. ex. joindre toutes les lignes du bloc avec "||")
Oubliez pas de prendre le tokéniseur alsacien partagé par Mme Bernhard pour éviter les problèmes de tokénisation
Pour la tokénisation du français, vous pouvez créer des fichiers tokénisés avec Spacy et ensuite travailler avec les fichiers tokénisés pour le reste du workflow.