Skip to content
Snippets Groups Projects
Commit fc3f6885 authored by Yann Audin's avatar Yann Audin
Browse files

2024-05-16

parent a1753069
No related branches found
No related tags found
No related merge requests found
This diff is collapsed.
......@@ -31,7 +31,7 @@ format:
menu: true
preview-links: auto
navigation-mode: vertical
slide-number: true
slide-number: false
show-slide-number: all
scrollable: true
footer: "Acfas 2024"
......@@ -41,12 +41,15 @@ format:
# Plus d'infos sur la syntaxe en quarto : https://quarto.org/docs/presentations/revealjs/
---
# Introduction
# Projet Intelligence artificielle littéraire
- Projet Intelligence artificielle littéraire (IAL) ;
- Chaire de recherche du Canada sur les Écritures numériques ;
- Financement du Conseil de Recherche en Sciences Humaines ;
- Équipe multidisciplinaire : Yann Audin, Mathilde Verstraete, Marcello Vitali-Rosati, Dominic Forest.
- Un projet de la Chaire de recherche du Canada sur les Écritures numériques ;
- Financement du Conseil de Recherche en Sciences Humaines du Canada ;
- Équipe multidisciplinaire :
- Yann Audin ;
- Mathilde Verstraete ;
- Marcello Vitali-Rosati ;
- Dominic Forest.
:::{.callout-note appearance="minimal"}
......@@ -55,13 +58,18 @@ Basé sur la plateforme [Anthologia graeca](https://anthologiagraeca.org/)
![](images/logo/all3.jpg){height="150" fig-align="center"}
# Objectifs du projet
## Objectifs du projet
- Étudier la possibilité de formuler une définition formelle (computationnelle, algorithmique) – d’un concept littéraire :
- Appliquer des algorithmes de fouille de données et de traitement automatique du langage afin de définir formellement un concept littéraire ([la variation]{.alert}) au sein d’un corpus donné ([l’Anthologie grecque]{.alert}) ;
- Spécificité de IAL :
- Si l’algorithme est capable de retrouver les variations précédemment relevées, c’est qu’il incarne la définition dudit concept.
Étudier la possibilité de formuler une définition formelle (computationnelle, algorithmique) – d’un concept littéraire :
- Appliquer des algorithmes de fouille de données et de traitement automatique du langage afin de définir formellement un concept littéraire ([la variation]{.alert}) au sein d’un corpus donné ([l’Anthologie grecque]{.alert}) ;
- Si l’algorithme est capable de retrouver les variations précédemment relevées, c’est qu’il incarne la définition dudit concept ;
::: {.callout-note icon=false}
# Notre but n'est pas heuristique, mais herméneutique.
:::
::: notes
......@@ -75,85 +83,85 @@ Le concept étudié est celui de la variation au sein du corpus de l'Anthologie
:::
# Corpus : l'*Anthologie grecque*
# Corpus : l'*Anthologie grecque* (AG)
- Recueil regroupant la poésie épigrammatique grecque antique ;
- Périodes classique à byzantine (= 15 siècles d'épigrammatique) ;
- Plusieurs compilations successives ;
- Corpus ouvert :
- *AG* = *Anthologie palatine*^[Heidelbergensis Palatinus graecus 23, X^e^ s.] + *Appendix Planudea*^[Marcianus gr. 481, 1299] ;
- Selon notre API, 4 134 épigrammes, de 311 auteurs ;
L'AG regroupe la poésie épigrammatique grecque antique de la période classique à byzantine, soit 15 siècles d'épigrammatique ;
:::{.callout-note appearance="minimal"}
Composé de l'*Anthologie palatine*^[Heidelbergensis Palatinus graecus 23, X^e^ s.] et de l'*Appendix Planudea*^[Marcianus gr. 481, 1299], ces recueils sont eux-mêmes issus de compilations successives des épigrammes.
# Corpus étudié actuellement
## La plateforme du projet d'édition numérique collaborative de l'Anthologie grecque
Livre VI (= 358 épigrammes votives) en traduction française (Waltz, les Belles Lettres)
<https://anthologiagraeca.org/>
:::
<video autoplay loop muted>
<source src="images/plateforme.webm" />
</video>
## L'API du projet d'édition numérique collaborative de l'Anthologie grecque
<!--
@math: nombre de formes (mots uniques), d'occurence (taille du corpus), taille moyenne des épigrammes
-->
<https://anthologiagraeca.org/api/>.
# Le projet d'édition numérique collaborative de l'Anthologie grecque
Une base de données en JSON hautement structurée pour les 4 134 épigrammes et 311 auteurs de l'*Anthologie grecque* :
:::: {.columns}
- Textes ;
- Traductions ;
- Images des manuscrits ;
- Commentaires ;
- Métadonnées ;
- ...
::: {.column width="40%"}
::: notes
- *Hub* pour l'*Anthologie* (textes, images, commentaires,...) ;
- La plateforme : <https://anthologiagraeca.org/> ;
- L'API : <https://anthologiagraeca.org/api/>.
De ce projet éditorial découle un corpus complet et hautement structuré : un terrain de jeu idéal pour initier de nouvelles expériences littéraires computationnelles.
:::
::: {.column width="60%"}
<video autoplay loop muted>
<source src="images/plateforme.webm" />
</video>
:::
## Sous-corpus étudié actuellement
::::
Nous concentrons nos efforts sur le Livre IV (358 épigrammes votives) en traduction française (Waltz, les Belles Lettres).
::: notes
- Variations nombreuses et bien annotées ;
- Réduit le temps de computation ;
- Sert de preuve de concept qui sera ensuite étendu à l'ensemble des épigrammes.
De ce projet éditorial découle un corpus complet et hautement structuré : un terrain de jeu idéal pour initier de nouvelles expériences littéraires computationnelles.
<!--
@math: nombre de formes (mots uniques), d'occurence (taille du corpus), taille moyenne des épigrammes
-->
:::
# La *variation* dans l'*Anthologie grecque*
> P. Laurens, L’abeille dans l’ambre : Célébration de l’épigramme de l’époque alexandrine à la fin de la Renaissance (2012<!--1989-->, p. 117-130)
:::: {.columns}
::: {.column width="40%"}
::: {.column width="36%"}
[Stylistique]{.alert} : Concerne les mots et leur agencement, introduisant de multiples mais infimes modifications par quelques éléments déplacés ou par des substitutions d’ordre lexical ou stylistique
:::
::: {.column width="30%"}
::: {.column width="32%"}
[Rhétorique]{.alert} : Porte sur la forme générale des épigrammes ; l’impression est celle d’une multiplication à l’infini des possibilités d’expression d’une même idée
:::
::: {.column width="30%"}
::: {.column width="32%"}
[Paradigmatique]{.alert} : Conserve la structure de l’épigramme, mais en fait varier le sujet même, lequel est considéré comme une variable parmi d’autres
:::
::::
::: {.callout icon="false"}
P. Laurens, L’abeille dans l’ambre : Célébration de l’épigramme de l’époque alexandrine à la fin de la Renaissance (2012<!--1989-->, p. 117-130)
:::
:::{.notes}
Concrètement, la variation consiste à reprendre un texte d’un prédécesseur ou contemporain et de l'adapter. On n’est pas très loin de ce qu’on appelle “plagiat” aujourd’hui, à la différence que le procédé était plutôt encouragé par les pratiques rhétoriques de l'époque. <!--Pour Pierre Laurens, qui consacra un vaste volume au genre épigrammatique, le changement dans la répétition est un procédé d’engendrement à l’infini, c’est la loi générale qui commande la production de la littérature grecque et son évolution.-->
Le procédé prend de l'ampleur chez les épigrammatistes du III^e^ siècle. L’épigramme était le genre idéal pour la pratique de la variatio, se prêtant à des variations presque infinies. La simplicité de la forme permet en effet aux auteurs de s'illustrer en l’espace de quelques vers seulement. La taille du poème rend impossible à un poète d’épuiser la richesse d’un sujet à l’intérieur d’une unique épigramme. La reprise d’un même sujet, en le variant, permet d’en faire sortir toutes les facettes successivement. Il y a enfin une notion de défi : plus le thème a été traité, plus il est difficile de le varier, plus le triomphe est grand.
Le procédé prend de l'ampleur chez les épigrammatistes du III^e^ siècle. L’épigramme était le genre idéal pour la pratique de la *variatio*, se prêtant à des variations presque infinies. La simplicité de la forme permet en effet aux auteurs de s'illustrer en l’espace de quelques vers seulement. La taille du poème rend impossible à un poète d’épuiser la richesse d’un sujet à l’intérieur d’une unique épigramme. La reprise d’un même sujet, en le variant, permet d’en faire sortir toutes les facettes successivement. Il y a enfin une notion de défi : plus le thème a été traité, plus il est difficile de le varier, plus le triomphe est grand.
Dès lors, les objets qui composent une épigramme issue d'une séquence de variation deviennent des variables, qui sont commutables. Selon Pierre Laurens, la variation peut être stylistique, rhétorique ou paradigmatique. La variation stylistique porte sur les mots et leur agencement: on innove en déplaçant des éléments, en modifiant le lexique et le style. La variation rhétorique progresse, s’attachant plutôt à l’objet, permettant au poète plus de liberté quant à l’organisation du poème. La variation paradigmatique enfin fait varier le sujet lui-même, le considérant comme une variable parmi d’autres.
:::
......@@ -339,7 +347,7 @@ Leur objectif est d'identifier s'il y a ou non une variation reflétée par la s
:::
### Évaluation des modèles
## Évaluation des modèles
![](images/JADT_confusion.png)
......@@ -382,25 +390,28 @@ Précision équilibrée = Balanced accuracy
Un arbre de décision à 14 niveaux est nécessaire pour obtenir une classification parfaite des données d'entraînement.
---
## Perceptron et régression logistique
![](https://s3.hedgedoc.org/demo/uploads/0a02b345-da8f-4cfa-812f-ffa0c9a28396.png)
---
# Discussion
- Les méthodes utilisées se concentrent essentiellement sur la similarité du vocabulaire utilisé au sein des paires d’épigrammes ;
- Résultats préliminaires encourageants pour repérer la V. stylistique ;
- Chaque méthode produit quelques dizaines de [faux positifs]{.alert} qui demandent une attention spéciale :
- Besoin d’autres facteurs discriminants des non-variations ;
- V. non annotées (épigrammes au statut ambigu) ;
- Les faux négatifs sont plus nombreux :
- Pour les V. stylistiques, devrons considérer les synonymes ;
- 17 à 47% <!-- cf. évaluation des modèles--> des variations répertoriées échappent encore aux modèles :
- Besoin d'autres représentations et mesures de similarité.
- Les méthodes qui se concentrent essentiellement sur la similarité du vocabulaire sont un bon point de départ pour la modélisation des variations stylistiques.
- Il est plus facile de détecter les non-variations que de discerner les variations stylistiques, ce qui suggère deux choses :
- Ce concept n'est pas limité au partage de vocabulaire ;
- Les non-variations ne partagent pas ou peu de formes.
- D'autres représentations textuelles et méthodes d'analyse des données sont nécessaires pour modéliser les variations paradigmatiques et rhétoriques.
## Apprendre des faux positifs et faux négatifs
Entre 17 et 47 % des variations répertoriées échappent encore aux modèles.
- L'édude des faux négatifs permettra de trouver des caractéristiques textuelles communes et ainsi raffiner nos modèles.
Chaque méthode produit quelques faux positifs qui demandent une attention spéciale :
- Comme dans le cas des faux négatifs, nous pouvons étudier leurs caractéristiques pour raffiner les modèles ;
- Il est possible de trouver des variations qui ont échappé aux annotateurs et certaines paires d'épigrammes ont un statut ambigüe.
:::{.notes}
......@@ -457,7 +468,7 @@ paires d'épigrammes prédites par nos algo comme étant des variations mais qui
- Nous sommes en mesure de corréler la présence d’une variation stylistique avec la cooccurrence des termes, et plus précisément des fréquences similaires de formes autrement plus rares dans le reste du corpus (modélisé par la pondération tf-idf).
:::
# Merci !
# Merci ! {.unnumbered}
::: {#refs}
:::
\ No newline at end of file
0% Loading or .
You are about to add 0 people to the discussion. Proceed with caution.
Finish editing this message first!
Please register or to comment