Numérisation : descriptions des tâches - processus

Un projet de numérisation comporte trois phases principales : la préparation, la production et la mise en ligne. Elles sont illustrées sur la figure 1. (lien A FAIRE !)

Phase de préparation

La préparation est réalisée en trois étapes qui commencent par la gestion d'un appel d'offre de marché public (rédaction d'un CCTP – cahier des clauses techniques particulières). C'est une étape qui prépare la phase de production qui est en partie réalisée par un prestataire parce que Mathdoc ne dispose pas d’une chaîne de numérisation en interne.

La seconde étape est la récupération des collections. Mathdoc ne possède pas de fonds documentaires, donc la cellule emprunte des collections à ses partenaires : bibliothèques du RNBM, bibliothèques municipales, éditeurs... Il faut donc repérer les collections et assurer le transport de celles-ci.

La dernière étape est celle du dépouillement. Cette tâche consiste en la description physique des documents (état général, taches, mauvaise impression, présence de tableaux, figures, images en tons continus…) et de la collection. Elle permet d'avoir un état des lieux et de relever les cas particuliers à traiter dans les fichiers de production. C'est une étape importante pour déterminer les responsabilités (Mathdoc, prestataire, bibliothèque) en cas de dommage sur un volume. Elle est réalisée dans un fichier tableur comportant 3 niveaux de données : la description d'un lot, la description des fascicules composant ce lot et la description des articles. Ce fichier est aussi utilisé pour le contrôle qualité, fait lors de la phase de production.

Phase de production

La production est réalisée en partie à Mathdoc et chez un prestataire. Le but est de préparer les fichiers et les métadonnées pour la mise en ligne.

La première étape, le scan, est réalisée chez un prestataire. Elle consiste en la numérisation des pages d'un document. Le résultat attendu est un ensemble de fichiers images TIFF qui reproduit exactement le document original. Donc les pages blanches sont aussi scannées.

A FAIRE ! insertion Figure 1 Étapes de la numérisation (cf p 10)

Ensuite le prestataire réalise deux phases importantes de la production. C'est-à-dire la création des fichiers « article » : PDF, DJVU et TIFF multipages, et la création de métadonnées au format XML à partir de la  DTD Volphys. Elle permet de rassembler des informations physiques, bibliographiques, et descriptives sur les articles et les volumes.

Le travail du prestataire est validé par une fiche de recette. Ce document est le résultat du contrôle qualité réalisé par Mathdoc. Préalablement à cette tâche, il faut bien entendu récupérer les fichiers et les métadonnées produits par le prestataire, soit sur un CD-ROM ou par FTP. Un double contrôle est exécuté : l’un est exhaustif, l’autre sur échantillon.

  • Le contrôle exhaustif : une série d’analyses automatiques sont effectuées sur la totalité des fichiers livrés de manière à repérer rapidement toutes les erreurs éventuelles.

  • Le contrôle par échantillon : ce contrôle permet de vérifier finement la qualité visuelle des fichiers ainsi que la qualité des bibliographies. L’interface Web utilisée pour cette étape permet de garder trace de tous les fichiers contrôlés et des erreurs détectées. La taille des échantillons de données ainsi que le nombre d’erreurs sont déterminés selon la norme AFNOR X06-021, X06-22, X06-028 (principes du contrôle statistique de lots).

Le raffinement et l’enrichissement des métadonnées sont importants pour augmenter la qualité des données. Cette étape consiste à améliorer et à unifier les métadonnées : à corriger la syntaxe ou l’orthographe des titres, à rajouter les formules en TeX dans les titres, résumés et bibliographies, à corriger les bibliographies, à unifier la base de données d'auteurs de Numdam (dédoublonnage, fusion), à rajouter des relations entre articles de type « suite de », « erratum de », etc.

Pour préparer la mise en ligne des fichiers de production, une page de garde est ajoutée aux fichiers PDF et DJVU des articles pour rappeler l'origine de l'article (référence bibliographique de l'article, logo Numdam et lien sur l’URL pérenne sur le site numdam.org). Elle comporte aussi une mention des usages autorisés.

En parallèle, la création de liens est faite pour réaliser la correspondance entre les articles et les références bibliographiques avec les entrées des bases de données Zentralblatt et Mathscinet, mais aussi à l'intérieur de Numdam.

Phase de mise en ligne

La mise en ligne sur internet est la finalité du projet de numérisation.

La première étape est l'indexation des données pour permettre les fonctionnalités importantes en ligne :

  • Feuilletage : le feuilletage volume par volume consiste en la reconstitution virtuelle de la table des matières de chaque volume avec des informations complémentaires telles que l’accès à la notice complète le cas échéant (résumé et bibliographie), aux articles et aux analyses MathReviews, Zentralblatt Math et Jahrbuch.
  • Recherche : Une interface de recherche avancée offre également un accès multi-revues et multi-critères. Les champs suivants sont interrogeables : journal, auteur, mots du titre, années et plein-texte. L’interface propose également la possibilité d’affiner la recherche en utilisant les  bibliographies. Il est alors possible de combiner une recherche sur un auteur qui en cite un autre, ce qui ouvre des perspectives intéressantes lors de recherches bibliographiques.

Cette étape est concomitante à la création de liens.

Ensuite une première épreuve appelée prépublication est mise en ligne pour permettre une dernière vérification des documents et métadonnées présentés. C'est aussi à ce moment que les pages éditoriales (page d'accueil, barrière mobile) sont mises à jour en français et en anglais. Si la prépublication n'est pas validée, il faut revenir à l'étape de raffinement pour parfaire les données.

Si la prépublication est validée une copie des données d'indexation est faite pour permettre au site public de présenter le contenu validé. Ces données d'indexation servent de base pour les serveurs OAI qui assurent l'interopérabilité d'autres projets comme Gallica, BASE ou EuDML.

La dernière étape (la publication) est une simple copie sur le site public de toutes les fonctionnalités et pages de la prépublication validée.

Au cours des années 2010 à 2014, Mathdoc a travaillé sur quatre projets de numérisation. Nous détaillerons ci-dessous les spécificités des projets et les activités entreprises.