Agrégation de métadonnées, moteurs de recherche et interfaces 2010-2014 : EuDML

Présentation

Après de nombreuses tentatives infructueuses (qui remontent à 2003) et dont nous avons toujours été partie prenante, un projet de bibliothèque numérique de mathématiques a finalement été financé par la Commission européenne. C’est Thierry Bouche qui a été chargé par la SME en 2007 (il était alors membre du comité EPC) de réunir un consortium et de faire une proposition dans le cadre du programme eContentPlus dans lequel une proposition coordonnée par la bibliothèque universitaire de Göttingen avait déjà échoué. La proposition se fonde sur les principes qu'il a proposés et discutés au cours de nombreuses visites en Europe ; elle se distingue de propositions précédentes par son nom (DML-EU : chapitre européen de la DML, contre EuDML où « Eu » se prononce comme un U anglais, donc comme la moitié d'un W), le principe ferme d'une bibliothèque distribuée de textes librement accessibles à terme, l'introduction enfin de techniques de gestion des savoirs mathématiques (ou MKM : mathematical knowledge management) et d'une ambition de faire bouger les lignes en matière d'interaction avec le corpus.  Du point de vue grenoblois, la principale difficulté a été d’obtenir un support  administratif de la part des tutelles ce qui a abouti à proposer au partenaire portugais de coordonner le projet du point de vue administratif, technique et financier, Mathdoc conservant la coordination scientifique uniquement. Ce projet n’a pas été retenu par eContentPLus en 2008, mais l’année suivante dans le programme qui lui faisait suite : CIP ICT PSP Digital Libraries : Open access to scientific information. EuDML a donc été un  projet pilote de type B, budget consolidé total de 3,2 M€, financement européen de 1,6 M€, qui aura été actif du premier février 2010 au 31 janvier 2013.

Actions de Mathdoc

Mathdoc est donc coordonnateur scientifique du projet, et responsable du 3e Work package (agrégation de métadonnées). Le 2e Work package est de fait dirigé aussi pour moitié par Mathdoc (communication avec le conseil consultatif scientifique, relation avec les partenaires potentiels). Par ailleurs, les collections apportées par Mathdoc (Numdam, Cedram, Gallica-Math) sont les deuxièmes par la quantité, après celles du projet allemand GDZ.
Mathdoc a contribué de façon significative aux actions suivantes :

  • constitution d'un réseau européen de centres DML ;
  • recensement des collections existantes, analyse détaillée sur les plans quantitatif et qualitatif ;
  • veille technologique sur les standards de métadonnées adaptées au corpus mathématique ;
  • définition du schéma EuDML (basé sur NLM JATS) et des types de documents pris en compte ;
  • mise en œuvre des conversions de formats de métadonnées ;
  • conseil, soutien, développement à tous les stades requis pour faire rentrer dans le système les collections d’un partenaire ou associé du projet (BDIM a rejoint le projet en cours, une bibliothèque numérique serbe juste après la fin) ;
  • outils de conversion à la volée de TeX vers MathML (basé sur Tralics et le savoir-faire du Cedram) ;
  • outils d'association de référence bibliographique (basé sur le logiciel de matching développé pour Numdam) ;
  • rétroconversion des articles scannés de Numdam vers LaTeX et XML/MathML à l'aide d'une version spécifique du logiciel InftyReader développée pour le projet ;
  • validation des choix techniques, des outils et de l'interface, notamment en faisant appel à des mathématiciens grenoblois.

Données chiffrées

Comme CIP n’est pas un PCRD, les règles de financements sont un peu différentes (et nettement moins favorables : remboursement de 50 % max. des coûts éligibles, taux d’environnement plafonné à 30 %, pas de tierce partie liée). Elles ont en particulier imposé que Mathdoc participe au projet comme deux entités distinctes pour que les coûts des personnels de chaque tutelle puissent être affectés au projet. La charge administrative a donc été assez lourde pour un bénéfice modeste : pour une raison non entièrement élucidée, le personnel CNRS n’a pas vraiment réussi à consacrer du temps à ce projet, qui a au final reposé pour l’essentiel sur trois personnes, toutes employées par l’UJF. Les comptes finaux font donc apparaître une contribution de Mathdoc en ressources humaines de l’ordre de

  • 4 personnes-mois pour le CNRS (16 k€ perçus) ;
  • 44 personnes-mois pour l’UJF (environ 200 k€ perçus).

Mathdoc a défini trois types de documents (article de revue, livre, ouvrage en plusieurs volumes)  et converti ses collections (y compris le Journal de math. Pures et appliquées : en tout 55000 références), ainsi que celles du projet espagnol (DML-E), et russo-allemand (GDZ, RusDML) : 83500 références supplémentaires. En fait, les 225000 références connues de EuDML ont été converties et validées sous la supervision de notre équipe.

La suite : EuDML initiative ?

L’évaluation du projet par la Commission européenne a salué le dépassement des objectifs dans le domaine où Mathdoc était très impliqué (agrégation de métadonnées, intégration des collections, ralliement de nouveaux partenaires), mais a été assez négative sur la façon dont l’évaluation interne du projet avait été conduite,  et sur l’étude économique attendue de la part du consortium pour anticiper ses coûts et assurer sa pérennité.
Le plan en vue d’une infrastructure durable passait par la constitution d’une association formelle des partenaires responsable de la vie du site web, de la maintenance des outils et de la bonne gestion des collections. C’est ce qui a été réalisé au cours de l’année 2013 sous le nom EuDML initiative. Le temps que les statuts soient signés par les douze partenaires fondateurs a permis de réunir l’assemblée générale à Varsovie seulement en juin 2014. L’initiative est une association dont le président élu est Thierry Bouche. Elle s’est dotée d’un comité exécutif et d’un comité technique dans lequel Olivier Labbe a été élu aussi. Un plan de travail a été rédigé, comportant des actions urgentes (défauts qui nuisent à l’image du site EuDML), des actions à moyen terme et des objectifs à plus long terme. Il a été présenté au conseil de la SME à San Sebastian, un peu plus tard dans l’année. Malheureusement, l’initiative manque de main d’œuvre et, si le travail à faire a été préparé par certains collègues, l’implémentation qui repose sur la bonne volonté des ingénieurs de Varsovie n’a pas avancé.