Acquisition

Descriptions des tâches : processus

Un projet d'acquisition comporte trois phases principales : la préparation, la production et la mise en ligne. Elles sont illustrées sur la figure 2.

A FAIRE ! : insérer la figure 2 cf p 17

Phase de préparation

L'étape, la plus délicate et laborieuse, de la phase de préparation est d'obtenir l'accord des éditeurs pour la récupération des données. Les accords sont fragiles et nombreux sont les éditeurs qui « oublient » de transférer leur production récente. Certains éditeurs ont cependant automatisé cette tâche, parfois avec des résultats surprenants (Springer nous livrant les fascicules d’une revue d’urologie en lieu et place des Publications de l’IHES…). Les fichiers numériques collectés sont hétérogènes et peuvent être des sources LaTeX, des fichiers XML de structure et granularité variables. Un fichier PDF par article est impératif. À l’heure actuelle nous diffusons ce fichier tel que reçu, sans ajouter de page de garde comme nous le faisons pour les articles numérisés. Dans une logique d’archivage à long terme il serait intéressant de convertir les fichiers en PDF/A et de les signer numériquement, ce que nous n’avons pas pu faire jusqu’à présent, faute des ressources nécessaires.

Phase de production

La première étape de la phase de production est découpée en deux types de chaînes qui dépendent des types de fichiers reçus. Le but étant d'avoir des fichiers PDF et des métadonnées produites selon la DTD Volphys exploitée sur Numdam. Pour des fichiers LaTeX, la chaîne d'acquisition utilise l’environnement de production du Cedram. C’est-à-dire que la revue est virtuellement refabriquée à partir de ces sources de façon à obtenir un XML complet tel qu’il serait exploité par le Cedram, lequel est versé dans Numdam à l’aide du process opérationnel pour les revues du Cedram. Ce travail est en partie scripté (si les données reçues le permettent) mais requiert toujours une mise au point manuelle et de nombreuses vérifications. D’une certaine façon, la mécanique du Cedram (environnement LaTeX/Tralics, dit Cedrics) peut être vue comme un moyen puissant de produire des métadonnées XML précises à partir de sources LaTeX.
Pour les fichiers XML des transformations XSLT sont appliquées.
Pour récupérer les formats propriétaires des éditeurs, douze chaînes d'acquisition ont été développées : six utilisant des mécanismes XSLT (provenance EDP sciences pour les années récentes, la revue de Padoue, le projet Euclid, Elsevier, Springer, le Cedram), et six autres utilisant du LaTeX avec l'outil Cedrics (provenance SMF, la revue de Pise, Philosophia Scientæ, EDP Sciences avant 2009, plus ponctuellement pour les années 2001-2003 des Publications de l’IHES et 2007-2008 du Journal de la société française de statistiques).
Dans certains cas les métadonnées n’existaient pas ou étaient inexploitables, nous les avons donc créées à la main en XML (revue Diagrammes) ou insérées dans une chaîne de numérisation (Cahiers de topologie et géométrie différentielle catégoriques).

Phase de mise en ligne

Dans tous les cas, le résultat de la phase précédente est un ensemble de PDF articles et de métadonnées XML au format Numdam. Les fascicules acquis sont donc insérés dans la chaîne de production Numdam où un travail de raffinement et d’enrichissement des métadonnées et de création de liens est réalisé. La mise en ligne est donc identique à celle des collections numérisées de Numdam.