![]() |
COMPTE RENDU de l'ATELIER "PREPUBLICATIONS" le 26 Juin 1997 à Grenoble |
|
Pierre Bérard (Cellule MathDoc) Véronique Bertrand (IRMA, Strasbourg) Maurice Bourguel (CIRM) Elizabeth Cherhal (Cellule MathDoc) Marie-Hélène Comte (INRIA Sophia) Francesca Diemer (IMAG) Marie-Pierre Durollet (INRIA Rocquencourt) Laurent Guillopé (Cellule MathDoc) |
Pascale Hennion (Ecole Polytechnique) Yves Laurent (Institut Fourier, Grenoble) Evelyne Mounier (ENSL) Alain Sartout (IRMA Strasbourg) Thien Pham (Orsay) Françoise Renzetti (IMAG) Geneviève Sureau (Orsay) |
Excusés : J Keller (IHES), G Laffaille (Montpellier), J-M Derrien (Brest), N Privault (Evry)
L'objet de la réunion était de discuter les aspects techniques de la mise en place d'un "catalogue/index" des prépublications de mathématiques disponibles sur le réseau en France. Les aspects juridiques ou éditoriaux pourront être discutés à l'occasion de l'école thématique proposée par la Cellule MathDoc et le RNBM (Marseille, 10--13 Mars 1997).
Avantages de cette solution:
Inconvénients :
Une page contenant des pointeurs sur les développements du "dublin core"
se trouve à l'adresse http://www.purl.org/metadata/dublin_core..
Des exemples de projets utilisant déjà les métadata sont
donnés:
Actuellement, la Cellule MathDoc utilise le logiciel Harvest pour la collecte
et l'indexation des prépublications. La collecte des informations par
Harvest est faite à partir d'une liste d'URLs. La liste contient des
URLs de FICHIERS html (qui à leur tour pointent d'autres fichiers),
Harvest respecte les normes habituellement définies pour des robots.
(accès aux fichiers, et non aux répertoires, respect des fichiers
"robots.txt", etc...) Harvest est considéré aujourd'hui comme le
produit le plus complet du domaine public. Son développement est
officiellement arrêté, mais une équipe d'anglais continue
officieusement de le maintenir.
Harvest pourra être remplacé par un autre système
(commercial ou non) plus performant si le besoin s'en fait sentir.
Avantages de cette solution :
Inconvénients :
La Cellule
MathDoc plaide pour la solution 2, car elle pense qu'une fois les automatismes
mis en place, cela s'avérera plus flexible et fiable. La Cellule
MathDoc peut apporter son aide aux gestionnaires de site pour favoriser cette
automatisation. Il est proposé une solution mixte : D'une part les
sites qui le peuvent/désirent mettent en place d'ores et
déjà un système basé sur les métadata,
d'autre part, la Cellule Mathdoc propose sur son serveur un formulaire pour
déclarer les prépublications, (et/ou un moyen de
récupérer un fichier du "déjà existant"). Le robot
passerait également sur les fichiers centralisés provisoirement
sur le serveur de la cellule MathDoc. Cette idée est adoptée.
Le débat s'engage sur les champs à indexer pour permettre une
recherche pertinente. Un consensus se fait pour ne pas trop compliquer la
tâche avec des champs difficiles à remplir. La Cellule MathDoc
doit donc proposer un "metadata core" basé sur les champs suivants :
(les métadata sont des données destinées à
être indexées et interrogées, ce qui doit être
distingué de l'affichage proprement dit).
Cette première proposition, largement amendable, et conforme au "dublin
core" (ses extensions de 96 et 97) se trouve dans le fichier http://www-mathdoc.ujf-grenoble.fr/meta-proposition.html.
Lorsque la prépublication devient article publié, il est
nécessaire de signaler cette information dans le corps du
résumé présent sur le web, mais il ne semble pas utile de
la rajouter dans les métadata à des fins d'indexation.
Ordre du Jour :
1) Tour de Table :
Le tour de table fait ressortir des situations assez différentes : entre
des systèmes centralisés et bien
organisées/automatisées (IF, Orsay) et des situations ou chaque
laboratoire gère ses propres publications sans centralisation (ENSL,
IMAG), il y a généralement un système qui mélange
un peu de travail manuel et un peu d'automatisation. Il est intéressant
de noter que beaucoup de sites ont des bases texto reçensant les
prépublications (du(des) labo(s) et celles reçues par la
bibliothèque). Une partie du contenu de ces bases texto est souvent
transformée en html afin d'être accédée par le web.
Ces bases peuvent servir de point de départ à l'automatisation
d'une partie du processus de mise en ligne des prépublications.
(à l'Institut Fourier la base est en bibtex, mais le principe reste le
même : les données bibliographiques pouvant servir plus tard
à l'indexation sont bien saisies à un moment donné). Il
ressort également du tour de table que si peu des sites ont le texte des
thèses en ligne, beaucoup ont des bases qui les recensent.
2) Exposé des différentes solutions proposées pour la
constitution de l'index
(le fichier postscript (imprimable) contenant les
transparents projetés est disponible à l'url http://www-mathdoc.ujf-grenoble.fr/math-prepub/prepub.ps)
2-1) Schéma 1 Collecte centralisée des données :
Les données bibliographiques sont centralisées sur le serveur de
la Cellule MathDoc, qui demande aux différents sites de lui fournir un
fichier (en format bibtex, html ou autre) décrivant leurs
prépublications. Un formulaire électronique est présent
sur le serveur de la Cellule MathDoc pour permettre aux gestionnaires des sites
de signaler les nouvelles prépublications au fur et à mesure de
leur sortie. La Cellule MathDoc gère déjà plusieurs bases
sur ce modèle de collecte centralisée des données
(périodiques, dea, bibliothèques, laboratoires). Le serveur de
preprint de l'AMS est organisé selon ce modèle.
2-2) Schéma 2 : Collecte des données par un robot :
Les sites de prépublications n'ont rien à envoyer à la
Cellule MathDoc. La récolte des informations est faite par un robot,
à partir d'une liste d'URLs pointant un ensemble de fichiers contenant
les résumés des prépublications. La meilleure
méthode pour qu'un robot indexeur ramasse des données
bibliographiques consiste à écrire celles-ci sous forme de
métadata dans l'entête d'un fichier html. (il est en effet
difficile, voire impossible de les repérer dans le corps d'un document
html, à cause des différences de mise en page). Des explications
sont données sur les métadata, et les différentes normes
existant aujourd'hui, en particulier la possibilité pour les gens
d'adapter le "dublin core" à leurs propres besoins, et ne pas se
restreindre à une norme établie par d'autres.
(Si par malheur la Cellule MathDoc venait à disparaître, il
suffirait de faire tourner un robot ailleurs.)
3) Débat autour des différentes solutions
.
Strasbourg est plutôt en faveur de la solution 1, car elle ne
nécessite pas de réorganiser le serveur web local.
(Est-il souhaitable d'indexer les noms des directeurs de thèse ? La
question est ouverte. L'interrogation d'un tel champ peut être
détournée à des fins d'évaluation)
Prépublications
Auteur
Titre
Origine (labo)
type de publication
MSC
ACM (si informatique)
Date de mise en ligne
Abstract
Résumé (si existant en français)
Résumé
Directeur de thèse ( ?)
Thèses
Auteur
Titre
Université de soutenance
type de thèse
MSC
ACM
Abstract
Date de soutenance
4) Mise en Oeuvre :
Un tour de table est à nouveau effectué pour savoir si les
participants sont d'accord pour collaborer à ce projet. En dehors des
centres de l'inria, (le cas des rapports de recherche inria sort un peu du
cadre des prépublications) qui réfléchissent, tous les
participants donnent leur accord. Il ne reste qu'à étudier la
mise en place concrète dans chaque site, avec l'aide éventuelle
de la Cellule Mathdoc. Une maquette devra être consultable au cours du
dernier trimestre 97.
5) Extension
Il est proposé d'organiser un autre atelier, peut-être dans
l'ouest de la France, et également d'aborder la question de l'index des
prépublications lors de l'école thématique RNBM/Cellule
MathDoc organisée en Mars 98 à Marseille.
Page d'accueil
Ressources documentaires /
La Base de données MATH /
Renseignements
pratiques
![]()
Coin discussion /
Pointeurs externes
accueil@mathdoc.ujf-grenoble.fr