Skip to content

DataCatalogue/publication-internship

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

4 Commits
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Publier les catalogues de vente avec TEI Publisher

Le projet DataCatalogue, conjointement mené par l’équipe ALMANaCH - Inria, la Bibliothèque nationale de France (BnF) et l’Institut national d’histoire de l’art (INHA) a été lancé au début de l’automne 2021. Il vise à passer d’une numérisation en mode image des catalogues de vente (monnaies, objets d’art, etc.) conservés à la BnF et l’INHA à une base de données textuelle et requêtable.

DataCatalogue s’attache à adapter la suite logicielle GROBID (GeneRation Of BIbliographic Data - https://github.com/kermitt2/grobid) au format des catalogues de vente. GROBID utilise des modèles CRF en cascade pour segmenter les zones d’information d’un document PDF et en produire un encodage XML-TEI. Grâce à l’encodage fin à grande échelle que permet un outil automatique comme GROBID, les catalogues de ventes bénéficieront d’un nouvel accès aux informations qu’ils contiennent. Cela passera notamment par la publication des fichiers obtenus dans une plateforme requêtable, ouverte aux publics.

Une étape du projet consistera à valoriser les résultats obtenus avec GROBID par le biais d’une interface de publication. L’application open-source TEI Publisher (https://teipublisher.com/index.html), aujourd’hui couramment utilisée au sein de l’équipe ALMAnaCH, est aujourd’hui considérée pour la publication des fichiers TEI produits. Nous proposons une mission de stage s’inscrivant dans ce contexte. Il s’agira pour le/la stagiaire de contrôler l'interopérabilité des données produites par GROBID et leur validité, et de participer à la création d’une application de publication basée sur TEI Publisher. Le/La stagiaire aura pour objectif d’identifier les besoins relatifs à une telle application et de participer à sa mise en place afin de valoriser et rendre accessible l’information contenue au sein des catalogues de vente. Il/Elle pourra être amenée à se déplacer au Département des Monnaies, médailles et antiques de la Bibliothèque nationale de France pour consulter ces documents.

En collaboration avec l’ensemble des équipes, le/la stagiaire aura pour mission de :

  • Se former à l’utilisation de GROBID dans le cadre du stage,
  • Participer à la création de données d’entraînement pour les modèles de segmentation de GROBID, et de contrôler les documents créés automatiquement avec ces modèles,
  • Connaissance du fonctionnement de TEI Publisher,
  • Enquêter auprès des public et des institutions partenaires sur les besoins en termes d’accès aux données contenues dans les catalogues de vente,
  • Proposer une configuration de TEI Publisher répondant aux besoin de valorisation et d’accessibilité des données produites dans le cadre de DataCatalogue,
  • Rédiger un rapport rendant compte de l’ensemble des tâches effectuées et des résultats obtenus.

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published