Réindexation et mise en ligne

Nous mettons sous cette bannière l’activité qui consiste à reprendre des fonds déjà numérisés pour les rendre exploitables avec un niveau d’ergonomie comparable à celui de nos services. L’exemple principal est la réindexation au niveau article de collections de Gallica, qui est décrite dans un précédent rapport d’activité. Nous sommes fréquemment sollicités par des détenteurs de collections numériques qui souhaitent déposer leurs collections chez nous car

  • ils nous font confiance ;
  • ils pensent que ces collections auront une plus grande visibilité chez nous, en particulier si elles sont intégrées à Numdam.

Nous avons ainsi mis en ligne par le passé les Publications mathématiques d’Orsay (publications orange), numérisées et déjà mises en ligne par la bibliothèque Hadamard, les archives Bourbaki (numérisées ailleurs, nous avons cependant numérisé une petite partie du corpus pour qu’il soit complet). Mais nous ne les avons pas intégrées à Numdam et nous avons donc créé des sites ad hoc, ce qui a conduit à un émiettement de notre offre et une perte de lisibilité.
Le problème de l’intégration à Numdam de collections que nous n’avons pas produites est assez semblable à celui de l’acquisition : il nous faut des fichiers articles de qualité acceptable, et des métadonnées précises et complètes de façon à conserver la qualité du service et l’homogénéité des fonctions disponibles. Lorsque nous récupérons des articles il est rare que les métadonnées contiennent les bibliographies. Mais il n’est pas rare non plus que les collections concernées n’aient même pas de métadonnées au niveau article (dans Gallica, il y a les métadonnées au niveau du volume physique comme on pourrait les trouver dans le catalogue d’une bibliothèque avec, dans les bons cas, une table des matières à partir de laquelle on peut déduire approximativement le découpage en articles).
Nous espérions comme résultat du projet EuDML une chaîne de traitement automatisée permettant de préparer ce travail, mais c’est un point qui a été rapidement abandonné et qui n’a donc pas avancé. Pendant la période couverte par ce rapport, nous avons recensé les mouvements sur Gallica (certaines œuvres ont été retirées pour des questions de droits, que nous avons donc retirées également, une dizaine d’années du Journal de mathématiques pures et appliquées a été numérisée, ainsi que de nombreuses années du Bulletin des sciences mathématiques — à noter que les CRAS sont presque entièrement disponibles jusqu’en 1997 et mériteraient également une indexation au niveau article pour être utilisables par les chercheurs). Mais nous n’avons pas eu les moyens humains de faire avancer ce projet. Il n’empêche que cette activité nous semble importante dans la mesure où elle rend utilisable des collections par ailleurs disponibles mais dotées de métadonnées insuffisantes : c’est un verrou qui limite grandement tous les projets DML dans le monde et qu’il faudra bien un jour faire sauter.