Améliorer performances d'import
Contexte & Besoin
L'import des données est lent. On aimerait les accélérer en tant que tel. Il semble exister différentes pistes à différents niveaux.
Une autre manière d'accélérer les imports et d'implémenter le pattern "upsert" mais cela accélère surtout les imports de type "flux" plutôt que "stock". Cf #9 (closed)
Tâches
Pistes à rechercher
- Recommendations officielles
-
https://www.mediawiki.org/wiki/Manual:Performance_tuning
- => ceci concerne les performances de l'installation Mediawiki (PHP, MySQL) en tant que tel, mais pas Wikibase ni les imports; nous n'avons pas de problèmes de perf à ce niveau-là
-
Quelques pistes pour améliorer les perf d'une instance Wikibase (via Adam "Addshore" Shorland)
- => de la même façon, cela concerne essentiellement les performances de la plateforme Mediawiki
-
https://www.mediawiki.org/wiki/Manual:Performance_tuning
- Paramètre maxlag : https://www.mediawiki.org/wiki/Manual:Maxlag_parameter
- => ceci permet un ralentissement volontaire dans la synchro des replicas des bases de données MySQL si utilisées en cluster, ce qui n'est pas notre cas; en d'autres termes maxlag permet aux bots de préserver l'API volontairement (cf API Etiquette) tandis que nous souhaitons l'inverse, càd ne pas subir une limite que nous impose l'API artificiellement
- configuration Wikidataintegrator : https://github.com/SuLab/WikidataIntegrator/blob/master/wikidataintegrator/wdi_config.py#L25
- https://github.com/OpenRefine/OpenRefine/issues/2304
- "Fastrun" ? (WikidataIntegrator)
- "replag" (limite de Wikidata): edit rate is limited by sql replication lag and by wdqs replication lag
- Exemples de bots / scripts d'import
- Faire appel aux experts Wikibase (Telegram à privilégier, Mailing List seulement si nécessaire)
- Chercher comment d'autres instances Wikibase ont résolu les mêmes problèmes
- Voir aussi ces notes sur Wikidata et Wikibase.