humanum-box.md 12 KB
Newer Older
1
# Huma-Num Box : stockage sécurisé pour données tièdes et froides
2
3
4

## Description générale

5
Début 2016, Huma-Num a complété son offre de services par un dispositif
6
7
de stockage sécurisé distribué sur RENATER à destination principale de
ses structures partenaires, et consolidé sur ses points de présence à
8
Villeurbanne et à Paris.
9
10

Celui-ci vise à faciliter pour les chercheurs le
Laurent CAPELLI's avatar
Laurent CAPELLI committed
11
stockage, la sécurisation et la gestion de leurs jeux de données volumineux.
12

13
Le dispositif est indépendant des autres systèmes et services
Laurent CAPELLI's avatar
Laurent CAPELLI committed
14
d’Huma-Num (Sharedocs, NAKALA, hébergement Web et machine virtuelle).
15
16

Il offre un service complémentaire pour accueillir des jeux de données,
Laurent CAPELLI's avatar
Laurent CAPELLI committed
17
principalement de grandes tailles (plusieurs centaines de Téraoctets au total).
18
19

Ce dispositif est une infrastructure technique, indépendante des
20
usages fonctionnels (au sens des données : usage, référencement,
21
traitement, publication, ...) et des usages métier.
22

nsauret's avatar
nsauret committed
23
Il est à considérer comme un équivalent technique d’un serveur de fichiers ordinaire, avec
24
des fonctionnalités supplémentaires de sécurisation et de préservation
Laurent CAPELLI's avatar
Laurent CAPELLI committed
25
(cf. infra). Le dispositif utilise des disques magnétiques et des bandes
26
27
28
29
magnétiques, pour stocker les données.

## Caractéristiques des données pouvant être accueillies par le dispositif

30
Les données candidates à ce dispositif sont réputées "tièdes" voire
nsauret's avatar
nsauret committed
31
"froides", au sens où relativement peu d’accès en écriture et en lecture
32
seront effectués durant toute la vie de ces données.
33
34

Par contre ces données ont vocation à être conservées de manière fiable durant
35
36
plusieurs années (5 à 10 ans), car elles constituent la matière première
du travail de recherche et ont souvent une valeur de type
Laurent CAPELLI's avatar
Laurent CAPELLI committed
37
patrimonial.
38
39

Ce service de stockage peut être vu comme le pendant
nsauret's avatar
nsauret committed
40
numérique d’une armoire sécurisée où l’on stocke des documents
41
importants, nombreux, organisés (en rayonnages, boites archives,
42
dossiers) et documentés (fiches).
Laurent CAPELLI's avatar
Laurent CAPELLI committed
43
Ceci à la différence d’un bureau où se trouvent en vrac les documents courants et de toutes natures.
44
45

Ces données sont notamment issues de campagnes de numérisation de fonds
nsauret's avatar
nsauret committed
46
anciens, de photos, d’enregistrements audio, de cartes, de vidéos, de
47
modèles 3D. Elles existent uniquement sous la forme de fichiers,
48
éventuellement accompagnés de fichiers de méta-données techniques et
49
documentaires librement produits par les utilisateurs.
50

nsauret's avatar
nsauret committed
51
52
Le dispositif lui-même ne gère pas l’association des méta-données et des données :
c’est à l’utilisateur de prendre en charge cet aspect.
53
54
55
56

Les données stockées ne peuvent pas être des bases de données au sens informatique.
Seuls des fichiers peuvent être stockés sur le dispositif.

57
Leur volume pourra atteindre plusieurs Téraoctets par jeu de
Laurent CAPELLI's avatar
Laurent CAPELLI committed
58
données. Les données sont organisées en "partages" (ou "volumes"),
nsauret's avatar
nsauret committed
59
disposant de règles d’accès comme celles utilisées sur des services de
60
fichiers classiques.
61
62

Chaque gestionnaire de ces partages définit
nsauret's avatar
nsauret committed
63
64
librement l’organisation arborescente des fichiers contenus dans chaque
partage, afin de répondre au plan de classement qu’il aura défini
65
66
67
68
lui-même.

## Caractéristiques fonctionnelles du dispositif

69
70
Pour chaque partage, il est défini :

71
72
- les personnes pouvant accéder en lecture et en écriture à ces données ;
- les sites et plus finement les adresses IP pouvant accéder à ces données (un même partage pourra être accessible depuis plusieurs sites) ;
Laurent CAPELLI's avatar
Laurent CAPELLI committed
73
74
- le nombre de copies des données pouvant varier typiquement de 1 à 2 ;
- avec ou non une copie sur bandes magnétiques ;
nsauret's avatar
nsauret committed
75
- la gestion des versions dans le temps d’un même fichier (mécanisme d’historisation) ;
76
- la durée de rétention permettant de conserver des données supprimées par les utilisateurs (mais restant accessibles aux administrateurs du dispositif).
77

nsauret's avatar
nsauret committed
78
Globalement, chaque partage est caractérisé par une politique d’accès
79
et une politique de sécurisation qui lui sont propres, et qui peuvent
80
être modifiées au fil du temps.
81
82

Le dispositif assure en continu le
83
respect de ces politiques. Ainsi la modification des localisations, du
nsauret's avatar
nsauret committed
84
nombre d’instances, du nombre de versions dans le temps, ne nécessite
Laurent CAPELLI's avatar
Laurent CAPELLI committed
85
aucune opération humaine.
86
87
88

## Architecture du dispositif

89
Le dispositif est à considérer comme un ensemble intégré unique,
Laurent CAPELLI's avatar
Laurent CAPELLI committed
90
comportant plusieurs serveurs répartis entre les structures partenaires et Huma-Num.
91

92
À ce jour, les structures partenaires sont les MSH de
nsauret's avatar
nsauret committed
93
Rennes, Nantes, Val de Loire, Toulouse et Lyon, ainsi que l’EHESS
94
(Paris) et La Contemporaine (Nanterre).
95
96

10 serveurs sont en production
97
pour une capacité de 800 Téraoctets sur disques et 1000 Téraoctets sur bandes.
98

Laurent CAPELLI's avatar
Laurent CAPELLI committed
99
Près de 200 jeux de données sont définis, pour environ 650 Téraoctets.
100

101
102
Chaque serveur a un rôle équivalent aux autres et participe aux divers traitements
mis en œuvre, notamment pour la sécurisation constante des données.
103

104
Le dispositif maintient un catalogue global et unique des partages et des données,
105
106
dont chaque partie est présente sur au moins trois serveurs, afin de la sécuriser fortement. 

nsauret's avatar
nsauret committed
107
108
L’authentification des utilisateurs s’appuie sur l’annuaire
LDAP/Human-ID d’Huma-Num commun à de nombreux services de la TGIR.
109

nsauret's avatar
nsauret committed
110
111
La gestion de l’annuaire est déléguée par branche à chaque site participant grâce à
l’outil FusionDirectory et l’interface accessible en
Laurent CAPELLI's avatar
Laurent CAPELLI committed
112
[annuaire.huma-num.fr](https://annuaire.huma-num.fr).
113

114
Enfin la volumétrie disponible et les licences logicielles sont également globales.
Laurent CAPELLI's avatar
Laurent CAPELLI committed
115
On parle de stockage virtualisé.
116

Laurent CAPELLI's avatar
Laurent CAPELLI committed
117
L’investissement d’Huma-Num consiste en :
118

Laurent CAPELLI's avatar
Laurent CAPELLI committed
119
120
121
122
-   les 10 serveurs et les 14 baies de stockage de marque Dell ;
-   les licences du logiciel Active-Circle de la société Oodrive ;
-   une garantie matérielle et logicielle sur 7 ans sur l’ensemble;
-   la ressource humaine pour la gestion complète du dispositif.
123

nsauret's avatar
nsauret committed
124
Huma-Num est le seul maître d’œuvre et administrateur du dispositif.
125
Chaque projet demande à Huma-Num la création, la suppression
126
ou la modification des caractéristiques des partages.
127

nsauret's avatar
nsauret committed
128
Un groupe d’utilisateurs est associé à un partage, permettant ainsi de déléguer
Laurent CAPELLI's avatar
Laurent CAPELLI committed
129
la gestion de qui accède au partage (par gestion de ce groupe dans l’annuaire commun).
130

Laurent CAPELLI's avatar
Laurent CAPELLI committed
131
Des présentations du dispositif sont disponibles en :
132

133
134
-   [Rencontre Huma-Num 2018](https://rhn2018.sciencesconf.org/data/20180612_hnbox.pdf)
-   [Conférence JRES 2017](https://isidore.science/document/10670/1.yd8n65)
nsauret's avatar
nsauret committed
135
-   Les documentations de l’éditeur sont en [activecircle-help.com/](https://activecircle-help.com/fr/%C2%A0).
136
137
138

## Accès au dispositif

nsauret's avatar
nsauret committed
139
Il est à noter qu’il n’est pas du tout nécessaire de se
140
trouver sur un site où se trouve un des noeuds pour utiliser le service.
Joel Marchand's avatar
Joel Marchand committed
141
Celui-ci est accessible à tout le monde, sans prérequis technique ou
nsauret's avatar
nsauret committed
142
d’hébergement de serveur ou encore d’investissement financier.
Joel Marchand's avatar
Joel Marchand committed
143

nsauret's avatar
nsauret committed
144
145
Huma-Num se réserve la responsabilité de faire évoluer l’architecture du
dispositif en fonction de sa croissance et de l’opportunité de
Joel Marchand's avatar
Joel Marchand committed
146
147
positionner des noeuds supplémentaires dans tel ou tel site.

nsauret's avatar
nsauret committed
148
### A. Depuis tout point de l’Internet
149

Laurent CAPELLI's avatar
Laurent CAPELLI committed
150
Trois méthodes d’accès sont disponibles :
151

Laurent CAPELLI's avatar
Laurent CAPELLI committed
152
153
154
1.   via un client utilisant le protocole SFTP (comme Filezilla, rsync, etc.) vers le serveur sftp.huma-num.fr
2.   via une interface Web en lecture uniquement permettant une consultation minimaliste de l’arborescence des fichiers (URL à choisir). Un exemple est en [images.eurhisfirm.eu](http://images.eurhisfirm.eu) ;
3.  de plus, il est tout à fait possible de coupler une application Web plus élaborée en lien avec un jeu de données stocké dans le dispositif. Les sites Cocoon, Archeogrid, Telemeta illustrent cette possibilité.
155

156
### B. Pour les sites hébergeant un des noeuds du dispositif
157

nsauret's avatar
nsauret committed
158
L’intérêt secondaire du service est aussi d’amener une fonction de type
159
"serveur de fichiers" au plus près des utilisateurs sur le réseau
160
local où se trouve un des noeuds.
nsauret's avatar
nsauret committed
161
Ceci afin d’en rendre l’usage le plus simple possible, proche de celui d’un disque interne.
162

Laurent CAPELLI's avatar
Laurent CAPELLI committed
163
L’accès aux partages peut alors se faire par une fonction «Connexion à un lecteur réseau»
nsauret's avatar
nsauret committed
164
165
Le jeu de données apparaît sur le Bureau ou dans l’Explorateur de
fichiers de l’ordinateur de l’utilisateur.
Laurent CAPELLI's avatar
Laurent CAPELLI committed
166
Il peut alors manipuler les données strictement comme si elles étaient sur son disque interne.
167

168
169
170
Pour étendre cette fonctionnalité
aux utilisateurs ne se trouvant pas sur un site où est hébergé un noeud,
un dispositif de VPN (Virtual Private Network) est disponible.
171
172
173
174
175

## Limitations techniques du dispositif

### Limitations sur le nombre de fichiers

176
Comme tout système de stockage distribué, le dispositif est sensible au
177
nombre de fichiers. Aussi chaque structure candidate indique un ordre de
nsauret's avatar
nsauret committed
178
grandeur du nombre de fichiers qu’elle compte déposer.
179
180

Au delà de 10 millions de fichiers, une étude devra être menée avec Huma-Num pour
Laurent CAPELLI's avatar
Laurent CAPELLI committed
181
préciser la faisabilité.
182
De plus, il est instamment demandé de ne pas dépasser environ 10 000 fichiers dans un même dossier.
Laurent CAPELLI's avatar
Laurent CAPELLI committed
183
Au-delà, il convient d’étudier avec Huma-Num les solutions de contournement.
184
185
186

### Limitations sur la nature des données

187
Les données sous forme de bases de données binaires (MySQL, PostgreSQL,
Laurent CAPELLI's avatar
Laurent CAPELLI committed
188
189
etc.) ne peuvent pas être stockées dans le dispositif. De même pour les
disques virtuels de machines virtuelles.
190
191
192

## Performances

Laurent CAPELLI's avatar
Laurent CAPELLI committed
193
Le dispositif n’est pas conçu pour :
194

Laurent CAPELLI's avatar
Laurent CAPELLI committed
195
-   un temps d’accès ultra-rapide ;
196
-   une très grande vitesse en transfert, en lecture comme en écriture ;
Laurent CAPELLI's avatar
Laurent CAPELLI committed
197
198
-   un usage bureautique ;
-   un traitement intensif et parallèle sur les données.
199

200

nsauret's avatar
nsauret committed
201
Néanmoins le retour d’expériences après cinq d’années d’exploitation
202
est positif. Aucune limitation perceptible par les utilisateurs du
nsauret's avatar
nsauret committed
203
dispositif n’est à noter.
204
205

Des vitesses de transfert de plus de 50 Mo/s (500 Mb/s)
206
sont observées régulièrement.
207

208
Des traitements intensifs ont pu être réalisés avec de bonnes performances,
Laurent CAPELLI's avatar
Laurent CAPELLI committed
209
en respectant un traitement séquentiel.
210
211

De plus, trois sites Web importants publient
212
désormais leurs fichiers media via un stockage sur ce dispositif. Il
nsauret's avatar
nsauret committed
213
s’agit des sites Cocoon, Archeogrid et Telemeta.
214

Joel Marchand's avatar
Joel Marchand committed
215
216
Aussi il convient de noter que le dispositif peut être utilisé
pour publier un corpus de données par une application Web sous forme
Laurent CAPELLI's avatar
Laurent CAPELLI committed
217
de fichiers de taille significative (images, sons, vidéos).
218
Ainsi une instance Omeka-S et une instance de serveur IIIF sont reliées au dispositif.
219
220
221

## Disponibilité, intégrité, confidentialité

nsauret's avatar
nsauret committed
222
L’engagement d’Huma-Num sur ce dispositif est de la même nature que
Laurent CAPELLI's avatar
Laurent CAPELLI committed
223
pour les autres services :
224

Laurent CAPELLI's avatar
Laurent CAPELLI committed
225
226
- "best effort", quant à la disponibilité ;
- haut niveau, quant à l’intégrité et la confidentialité.
227

Laurent CAPELLI's avatar
Laurent CAPELLI committed
228
Le retour d’expérience sur cinq ans montre :
229

Laurent CAPELLI's avatar
Laurent CAPELLI committed
230
231
- aucun incident concernant la conservation, l’intégrité ou la confidentialité des données ;
- une disponibilité très satisfaisante.
232
233

Le dispositif est réputé sûr quant à la conservation des données,
nsauret's avatar
nsauret committed
234
moyennant évidemment l’existence de deux jeux de données sur deux
235
sites. Un mécanisme de vérification automatique des signatures des
Laurent CAPELLI's avatar
Laurent CAPELLI committed
236
fichiers peut être mis en place.
237

Laurent CAPELLI's avatar
Laurent CAPELLI committed
238
De plus, un archivage binaire des données peut être mis en place sur
239
bandes magnétiques LTO. Ceci constitue une duplication des données sur
nsauret's avatar
nsauret committed
240
d’autres médias que des disques magnétiques. Ces bandes peuvent être
241
242
verrouillées en écriture, sont relues et contrôlées automatiquement et
périodiquement, et elles sont écrites dans un format ouvert et normalisé
Laurent CAPELLI's avatar
Laurent CAPELLI committed
243
(TAR).
244

Joel Marchand's avatar
Joel Marchand committed
245
246
Quant à la confidentialité, plusieurs points :

nsauret's avatar
nsauret committed
247
248
-   Elle est d’abord garantie par la bonne gestion des droits d’accès aux partages.
-   Les accès en SFTP opèrent un chiffrement de la communication entre l’utilisateur et le service.
Joel Marchand's avatar
Joel Marchand committed
249
250
251
-   Une fonction de chiffrement à la volée est désormais disponible, qui assure une conservation chiffrée sur disques et bandes.
-   Une journalisation exhaustive des accès aux données est en place.
-   Le besoin de chiffrement des données sur les PC des utilisateurs reste à leur charge.
252

253

254
## Support
255

nsauret's avatar
nsauret committed
256
Toute demande concernant ce service doit impérativement être envoyée à l’adresse [assistance@huma-num.fr](mailto:assistance@huma-num.fr).