Commit bf1c421f authored by nsauret's avatar nsauret
Browse files

typo, cleanup

parent 5f47133b
......@@ -11,8 +11,7 @@ Il est accessible sur [isidore.science](https://isidore.science). Pour plus
d’information sur ISIDORE, vous pouvez consulter la page "[À
propos](https://isidore.science/apropos)" du site.
Lancé le 8 décembre 2010, ISIDORE est le fruit de la collaboration du "très grand équipement" Adonis du CNRS (2007-2013), du Centre pour la communication scientifique directe
et des sociétés Antidot, Mondéca et Sword.
Lancé le 8 décembre 2010, ISIDORE est le fruit de la collaboration du "très grand équipement" Adonis du CNRS (2007-2013), du Centre pour la communication scientifique directe et des sociétés Antidot, Mondéca et Sword.
ISIDORE est actuellement développement et exploité par la TGIR Huma-Num.
......@@ -20,9 +19,7 @@ ISIDORE est actuellement développement et exploité par la TGIR Huma-Num.
ISIDORE propose plusieurs outils pour rechercher, découvrir, collecter et organiser les contenus qu’il indexe :
Il propose un [moteur de recherche par
pertinence](https://isidore.science) qui peut être utilisé
avec plusieurs méthodes d’interrogation.
Il propose un [moteur de recherche par pertinence](https://isidore.science) qui peut être utilisé avec plusieurs méthodes d’interrogation.
- Par défaut, ISIDORE cherche tous les mots d’une requête posée par
l’utilisateur/utilisatrice en enlevant les mots vides (de, la, le,
......@@ -114,11 +111,7 @@ Ces [connecteurs et leurs documentations sont disponibles sur le gitlab de la TG
### Utilisation des flux RSS
Le logiciel de gestion de bibliographie [Zotero](https://zotero.org) utilise par ailleurs les flux RSS
permettant à ses utilisateurs de faire de la veille scientifique. ISIDORE propose la fonctionnalité de transformer ses requêtes enregistrées sous la forme d’un flux RSS sous la forme d’une adresse URL. Les flux RSS créés dans ISIDORE sont mis à jour, comme l’ensemble
des contenus du moteur de recherche, une fois par mois environ. Ainsi,
il est possible de suivre, depuis Zotero, la mise à jour des documents
d’Isidore issus des requêtes enregistrées.
Le logiciel de gestion de bibliographie [Zotero](https://zotero.org) utilise par ailleurs les flux RSS permettant à ses utilisateurs de faire de la veille scientifique. ISIDORE propose la fonctionnalité de transformer ses requêtes enregistrées sous la forme d’un flux RSS sous la forme d’une adresse URL. Les flux RSS créés dans ISIDORE sont mis à jour, comme l’ensemble des contenus du moteur de recherche, une fois par mois environ. Ainsi, il est possible de suivre, depuis Zotero, la mise à jour des documents d’Isidore issus des requêtes enregistrées.
Pour cela, il faut demander à ISIDORE --- dans son espace personnel en
mode connecté, le lien vers le flux RSS d’une requête enregistrée en
......@@ -240,7 +233,7 @@ ensemble cohérent de notices dont le périmètre est laissé à la libre
appréciation du producteur des données. Il permet aussi de définir une
hiérarchie dans les *sets* avec un mécanisme d’héritage en précisant
dans le nom du set le nom du ou des *sets* parents et du *set* enfant
séparé par le caractère " : ". ISIDORE est en capacité d’utiliser ces
séparé par le caractère `:`. ISIDORE est en capacité d’utiliser ces
*sets* pour limiter le moissonnage à un ensemble de notices ou pour
différencier différentes sources de données au sein d’un même entrepôt.
Le producteur devra donc préciser les modalités de moissonnage qui lui
......@@ -256,15 +249,15 @@ moissonneur d’ISIDORE exploite ainsi les métadonnées décrites selon le
profil d’applications défini par l’Open Archive Initiative pour le
Dublin Core Element Set (connu aussi Dublin Core "simple"). De
surcroît, le moissonneur collecte également le ou les documents en texte
intégral dont les URL (débutant par https:// ou http://) sont indiquées
dans l’élément <dc:identifier>
intégral dont les URL (débutant par `https://` ou `http://`) sont indiquées
dans l’élément `<dc:identifier>`
Nous recommendons aux producteurs de données de proposer des record les
plus riches possible en métadonnées. En effet, la pertinance dans
ISIDORE favorise les métadonnées les plus riches possibles. Des champs
tel que :
``` {.language-markup}
```xml
<dcterms:description>
<dcterms:creator>
<dcterms:date>
......@@ -274,7 +267,7 @@ sont indispensables.
#### Exemple d’une notice en OAI-PMH :
``` {.language-markup}
```xml
<record>
<header>
<identifier>oai:halshs.archives-ouvertes.fr:halshs-00514304</identifier>
......@@ -347,7 +340,7 @@ l’obsolescence de ces derniers peut rendre difficile leur maintien dans
le temps. Une autre solution consiste à implémenter RDFa dans le code
HTML du thème WordPress que l’on a choisi. Pour ce que cela soit facile
et gérable dans le temps, le plus simple est d’utiliser l’entête HTML
<head> afin d’y placer des balises <meta> qui contiendront les
`<head>` afin d’y placer des balises `<meta>` qui contiendront les
métadonnées.
Exprimer des métadonnées selon le modèle RDF via la syntaxe RDFa permet
......@@ -356,7 +349,7 @@ traiter l’information car elle devient plus explicite : pour une
machine, une chaîne de caractère peut être un titre ou un résumé, si
vous ne lui dites pas que c’est un titre ou que c’est un résumé elle
ne le devinera pas. A minima, il est donc possible d’utiliser les
balises <meta> pour définir une structure RDF offrant la possibilité
balises `<meta>` pour définir une structure RDF offrant la possibilité
de structurer les métadonnées minimales par exemple avec le vocabulaire
documentaire Dublin Core Element Set. Le RDFa est une façon d’écrire des
triplets RDF dans du HTML (le "a" de RDFa veut dire "in
......@@ -368,17 +361,17 @@ En premier, il faut indiquer dans le DOCTYPE de la page web, qu’elle va
contenir des informations qui vont utiliser le modèle RDF, ainsi, le
DOCTYPE sera :
``` {.language-markup}
```xml
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML+RDFa 1.0//EN" "http://www.w3.org/MarkUp/DTD/xhtml-rdfa-1.dtd">
```
Dans la balise <html>, nous allons indiquer les adresses des
Dans la balise `<html>`, nous allons indiquer les adresses des
vocabulaires documentaires - par l’intermédiaire de namespace XML - qui
vont nous servir à typer les informations, dans notre exemple, nous
allons utiliser le Dublin Core simple et le Dublin Core Terms (DC Terms)
:
``` {.language-markup}
```xml
<html xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#"
xmlns:rdfs="http://www.w3.org/2000/01/rdf-schema#"
xmlns:xsd="http://www.w3.org/2001/XMLSchema#"
......@@ -389,7 +382,7 @@ xmlns:dcterms="http://purl.org/dc/terms/">
Il serait possible, pour encoder plus d’information, d’utiliser plus
de vocabulaires documentaires :
``` {.language-markup}
```xml
<html
xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#"
xmlns:dc="http://purl.org/dc/elements/1.1/"
......@@ -407,19 +400,19 @@ métadonnées, [CC](http://creativecommons.org) nous permettrait de
signaler quelle licence Creative Commons s’appliquerait à ce contenu.
Après avoir déclaré des les vocabulaires documentaires que nous allons
utiliser, nous allons ajouter la structure RDFa au travers de balises
<meta> dans l’en-tête <head> de la page HTML. Dans un premier
temps, à l’aide d’une balise <link>, nous allons définir l’objet
`<meta>` dans l’en-tête `<head>` de la page HTML. Dans un premier
temps, à l’aide d’une balise `<link>`, nous allons définir l’objet
numérique auquel les informations encodées en RDF seront rattachées :
``` {.language-markup}
```xml
<link rel="dc:identifier" href="http://monblog.com/monbillet.html" />
```
Cette balise définit donc un conteneur pour les informations que nous
allons indiquer à l’aide des balises <meta>. Ce conteneur est
allons indiquer à l’aide des balises `<meta>`. Ce conteneur est
identifié par une URI qui se trouve être une URL, c’est à dire
l’adresse de la page dans le web. Maintenant, nous enchaînons les
balises <meta> qui définissent donc un ensemble de métadonnées, c’est
balises `<meta>` qui définissent donc un ensemble de métadonnées, c’est
à dire dans notre cas, des informations descriptives de la page web :
![](https://documentation.huma-num.fr/images/meta.png){width="646"
......@@ -580,12 +573,7 @@ la plateforme du [Centre pour l’édition électronique
ouverte](http://www.cleo.cnrs.fr) et cela permet d’indexer des livres
--- au niveau des chapitres, et de les signaler.
Hors du monde francophone, ISIDORE indexe aussi les ouvrages présents
sur [Scielo
Books](https://www.rechercheisidore.fr/search/?collection=10670/3.7oraz1)
(Brésil) et
[OApen](https://www.rechercheisidore.fr/search/?collection=10670/3.pwofj8)
(Pays-Bas).
Hors du monde francophone, ISIDORE indexe aussi les ouvrages présents sur [Scielo Books](https://www.rechercheisidore.fr/search/?collection=10670/3.7oraz1) (Brésil) et [OApen](https://www.rechercheisidore.fr/search/?collection=10670/3.pwofj8) (Pays-Bas).
Par ailleurs, vous pouvez, en accord avec votre éditeur, déposer votre
ouvrage ou chapitres d’ouvrages dans l’archive ouverte
......
# ShareDocs - Outils de traitement
- [1 / Fonctionnement du dossier hnTools_WatchFolder](#S1)
- [2 / Conversion/Transcodage audio et vidéo](#S2)
- [3 / Reconnaissance de caractères (OCR)](#S3)
- 3.1 Conditions d’utilisations des logiciels d’OCR
- 3.2 Tesseract
- 3.3 AbbyyCloud
- 3.4 AbbyyServer
- 3.4 AbbyyStation
- [4 / Conversion PDF](#S4)
- 4.1 ghostscript : compression
- 4.2 xpdf : conversion .txt
- [5 / Contact et questions](#S6)
## []{#S1}1 / Fonctionnement du dossier hnTools_WatchFolder
## Fonctionnement du dossier hnTools_WatchFolder
Sous l’arborescence du compte utilisateur, on trouvera un répertoire
hnTools_watchFolder qui contient des outils de conversion. Ce
......@@ -30,6 +17,7 @@ qui est effectué dessus. La structure est de la forme:
hnTools_watchFolder->[Tool]->[Engine]->Preset1->Preset2
L’organisation est la suivante :
```
- Audio
    |- ffmpeg
       |- vers choix du format audio (MP3, MP4_aac-lc, WAV)
......@@ -38,8 +26,8 @@ L’organisation est la suivante :
       |- choix du format de sortie et de la langue
    |- AbbyyServer
       |- choix du format de sortie et de la langue
    *|- Abbyy FineReader station*
*       |- envoie du fichier vers un opérateur pour correction.*
    |- Abbyy FineReader station
       |- envoie du fichier vers un opérateur pour correction.
    |- Tesseract
       |- choix du format de sortie et de la langue
- PDF
......@@ -50,6 +38,7 @@ L’organisation est la suivante :
- Video
    | - ffmpeg
       |- vers choix du format vidéo (MP4, WebM)
```
Par exemple pour lancer un OCR via Abbyy Server vers le format Word pour
un document en Allemand, il faut placer le ou les fichiers dans
......@@ -57,7 +46,7 @@ hnTools_watchFolder -> OCR -> abbyyServer -> toWord -> German
le résultat se trouvera dans le même répertoire avec le postfixe
_hnOCR.docx
## []{#S2}2 / Conversion/transcodage audio et Vidéo
## Conversion/transcodage audio et Vidéo
*NOTE : ce chapitre traite des dossiers audio et vidéo.
*Le transcodage audio/vidéo utilise [FFmpeg](https://ffmpeg.org/) comme
......@@ -113,12 +102,12 @@ le répertoire OUT.
Pour l’ajout d’autres presets vous pouvez en faire la demande à
l’adresse suivante : assistance@huma-num.fr
## []{#S3}3 / Reconnaissance de caractères (OCR)
## Reconnaissance de caractères (OCR)
Le résultat sera mis dans le même répertoire avec l’ajout _hnOCR
Le résultat sera mis dans le même répertoire avec l’ajout `_hnOCR`
dans le nom du fichier
### 3.1 Conditions d’utilisations des logiciels d’OCR
### Conditions d’utilisations des logiciels d’OCR
Ces outils sont à utiliser dans un cadre professionnel.
......@@ -150,21 +139,21 @@ des conteneurs cryptés. Un conteneur crypté certifié par l’ANSSI et de
niveau EU restricted est accessible sur cette page
<https://www.zedencrypt.com/>.
### 3.2 Tesseract
### Tesseract
Tesseract ne pouvant lire des fichiers PDF, une conversion PDF vers TIFF
est automatiquement faite. Tesseract ne peut pas produire de fichier
word ou excel.
### 3.3 AbbyyCloud
### AbbyyCloud
Le montant des licences Abbyy FineReader correspond à un nombre de pages
océrisées par année. Le quota fixé est de 900 pages par utilisateur, il
se ré-initialise tous les ans au renouvellement du contrat en juin.
Quand on utilise Abbyy Cloud le fichier est envoyé sur le serveur
d’Abbyy situé en Europe dans le Cloud de Microsoft Azure. ***Pour des
d’Abbyy situé en Europe dans le Cloud de Microsoft Azure. **Pour des
documents confidentiels il faut utiliser Abbyy Fine Reader serveur
(AbbyyServer).***
(AbbyyServer).**
AbbyyCloud est fait pour traiter rapidement des petits documents. Les
fichiers ne doivent pas excéder 30Mo. Au-delà il faut utiliser Abbyy
Fine Reader serveur. Le moteur d’OCR est régulièrement mis à jour par
......@@ -174,7 +163,7 @@ Déposer le fichier dans le dossier voulu (choisir le format de sortie
puis la langue du document à traiter), le résultat se récupère au même
endroit.
### 3.4 AbbyyServer
### AbbyyServer
Le montant des licences Abbyy FineReader correspond à un nombre de pages
océrisées par année. Le quota fixé est de 900 pages par utilisateur, il
......@@ -185,13 +174,13 @@ jusqu’à 2 Go. Le moteur d’OCR est mis à jour une fois par an.
L’option oldLanguage dit Fraktur (ancien allemand, français, anglais,
italien espagnol) faisant l’objet d’une facturation spécifique
d’Abbyy, *elle* *n’est* *pas active par défaut sur les comptes*. Il
d’Abbyy, *elle n’est pas active par défaut sur les comptes*. Il
faut en faire la demande à l’adresse mail assistance@huma-num.fr
On trouvera en plus du fichier reconnu par l’OCR un fichier ayant le
même nom, mais avec la double extension .result.xml qui est le rapport
même nom, mais avec la double extension `.result.xml` qui est le rapport
statistique de l’OCR
### 3.5 AbbyyStation
### AbbyyStation
Cet outil n’est pas activé par défaut sur les comptes, il faut en faire
la demande à l’adresse mail assistance[@]huma-num.fr
......@@ -202,12 +191,11 @@ apprentissage. Cela implique de configurer un ordinateur sous Microsoft
Windows avec Abbyy FineReader Station pour recevoir le document et faire
de l’apprentissage d’OCR dessus.
*La TGIR n’a pas d’opérateur affecté aux tâches
d’apprentissage/correction.*
*La TGIR n’a pas d’opérateur affecté aux tâches d’apprentissage/correction.*
## []{#S4}4 / Traitement PDF
## Traitement PDF
### 4.1 ghostscript : compression.
### ghostscript : compression.
L’outil pdfToPdf_xxx permet de convertir un PDF pour l’alléger
suivant trois preset qui sont :
......@@ -218,20 +206,17 @@ suivant trois preset qui sont :
- Prepress compression faible avec des images à 300 dpi mais
conservation de l’espace colorimétrique.
On trouvera sur [cette
page](%20https://www.ghostscript.com/doc/9.23/VectorDevices.htm#PDFWRITE)
dans la section "Distiller Parameters" les variables qui sont
affectées à chaque preset.
On trouvera sur [cette page](%20https://www.ghostscript.com/doc/9.23/VectorDevices.htm#PDFWRITE) dans la section "Distiller Parameters" les variables qui sont affectées à chaque preset.
### 4.2 xpdf : conversion txt.
### xpdf : conversion txt.
Le dossier pdfToTexte permet la conversion des fichiers PDF en .txt. Il
est fait pour les PDF qui sont déjà en mode texte, et pour lesquels il
n’est pas utile de faire de l’OCR dessus.
Déposer le fichier dans le dossier "toTexte", le résultat sera mis
Déposer le fichier dans le dossier `toTexte`, le résultat sera mis
dans ce même répertoire avec l’extension .txt
## []{#S6}5 / Questions et Contact
## Questions et Contact
Pour tout problème ou question liée à l’utilisation de Sharedocs et des
outils mentionnés, veuillez envoyer un mail à l’adresse suivante :
......
Supports Markdown
0% or .
You are about to add 0 people to the discussion. Proceed with caution.
Finish editing this message first!
Please register or to comment