La Bibliothèque nationale de France et Europeana Newspapers

La Bibliothèque nationale de France (BnF) rassemble le patrimoine documentaire national, le conserve et le rend accessible aux utilisateurs sur place et à distance. Les collections de la BnF sont uniques au monde : quatorze millions de livres et de revues, mais aussi des manuscrits, estampes, photographies, cartes et plans, partitions, monnaies, médailles, documents sonores, vidéos, multimédia, décors, costumes….. Toutes les disciplines intellectuelles, artistiques et scientifiques sont représentées dans un esprit encyclopédique. La bibliothèque numérique de la BnF, Gallica, permet aujourd’hui de consulter plus de deux millions et demi de documents. 

Bibliothèque nationale de France
Bibliothèque nationale de France

Au sein de l’établissement, une équipe s’est constituée autour du projet Europeana Newspapers et met à sa disposition une diversité de compétences : le département Droit, économie, politique, qui abrite l’essentiel des collections de presse de l’établissement, sélectionne et met en valeur les périodiques mis à la disposition du projet ; le service de la Numérisation en réalise la coordination technique (extractions des pages, définition des entités nommées, contrôle qualité, etc) ; le département de l’Information bibliographique et numérique se préoccupe de l’aspect métadonnées ; le département des Systèmes d’information met en place les outils nécessaires à l’échange des données ; la délégation aux Relations internationales assure l’interface politique et administrative avec le Consortium du projet.

 

Spécificités, critères de choix et souhaits d’évolution

La BnF présente dans ce projet plusieurs particularités notables. Avec plus de 5 millions de pages de presse numérisées (dont près de 4 millions océrisées), la BnF propose sur le web une des plus importantes hémérothèques numériques en Europe ; ce qui la place au rang de contributeur le plus important du projet en nombre de fascicules de journaux numérisés fournis (1 385 727 pages pour l’OCR et 1 002 761 pages pour l’OLR). Il s’agit du seul corpus en français du projet. Les journaux proposés sont libres de droit, et centrés sur la période contemporaine, du début du XIXème siècle au milieu du XXème siècle. La BnF soutient, au sein du projet, une position ouverte mais prudente quant à la réutilisation de ses données.

Salle de lecture Bibliothèque nationale de France
Salle de lecture Bibliothèque nationale de France

Le choix des journaux quotidiens pour le projet européen s’est porté sur les documents numérisés les plus consultés sur la bibliothèque numérique de la BnF, Gallica, tant par les chercheurs professionnels que par le grand public. D’autre part, leur volumétrie (plus de 100 000 pages pour les grands quotidiens, divisés en dizaines de milliers de fascicules) rend la recherche, l’interrogation par sujet ainsi que la navigation dans le texte, plus complexes que celles des collections de monographies ou des revues savantes.  Ces difficultés sont accentuées par l’absence presque totale de tables ou d’index pour les quotidiens français. L’amélioration de l’OCR, la segmentation à l’article des fichiers numérisés et l’indexation des titres amélioreront donc de façon considérable la visibilité de ces collections de journaux et leur utilisation par les webnautes. L’identification des titres des articles depuis les moteurs de recherches est enfin attendue comme une possibilité de flux supplémentaire de nouveaux utilisateurs vers Gallica et vers le catalogue de la BnF.

Outre les attentes citées ci-dessus, la BnF attend du projet des outils permettant des usages renouvelés pour la valorisation des fonds, comme la recherche des entités nommées, qui ouvrirait des perspectives nouvelles pour le traitement des discours (et leur évolution) dans la presse. Intéressant plutôt les chercheurs institutionnels (linguistes, politistes ou historiens de la littérature en particulier), ces évolutions profiteraient aussi au grand public, permettant par exemple aux généalogistes d’accéder plus facilement aux données nominatives. L’affinement de la segmentation à l’article doit permettre de retrouver une navigation qui restitue le rubriquage d’origine. Ainsi, l’identification systématique des rubriques devrait faciliter la recherche thématique sur de longues périodes de publication, sans avoir à feuilleter fascicule par fascicule. Les études monographiques (personnages ou évènements) seraient facilitées par l’indexation des sujets, permettant en quelques clics la constitution de dossiers documentaires (les vénérables « revues de presse »). Enfin, les perspectives ouvertes par le projet doivent permettre à terme une utilisation quantitative des sources de presse permettant des études d’opinion sur le long terme.

 

L'aurore, 13th January 1898, "J'accuse" by Emile Zola
L’aurore, 13th January 1898, “J’accuse” by Emile Zola

Le devenu célèbre “J’accuse” d’Emile Zola

Le 13 janvier 1898, Emile Zola publie une défense du capitaine Dreyfus, accusé de haute trahison, sous la forme d’une lettre ouverte au président de la République Félix Faure en une de l’Aurore. Ce véritable réquisitoire fait de l’affaire une question publique, nationale, mettant au centre de l’argumentation la République et ses valeurs. Cet article fit trembler le régime sur ses assises.

 

Premiers résultats

Concernant l’impact d’Europeana Newspapers sur les réalisations et projets propres de la BnF, l’utilisation concrète des résultats du projet devrait contribuer à une ouverture plus large vers l’extérieur des métadonnées produites par l’établissement. D’autre part, outre le passage de la BnF au format METS/ ALTO, les systèmes d’informations devront à terme, accueillir des développements permettant l’implantation et la lecture de fichiers OLRisés.

salle de lecture
Salle de lecture Bibliothèque nationale de France

La BnF a décidé de fournir au projet une sélection des plus grands quotidiens du XIXème et XXème siècles, tenant compte des équilibres politiques et des sensibilités philosophiques et religieuses. L’intérêt porté par ces journaux aux relations internationales et à l’Europe en particulier fut, bien entendu, un critère de choix. C’est donc 26 titres d’une grande qualité littéraire et journalistique qui sont proposés pour le projet.

Les questions principales à l’étape actuelle du projet sont le contrôle qualité des fichiers reçus (niveau de reconnaissance des textes, segmentation correcte des articles, etc) et la comparaison avec d’autres versions océrisées préalablement : quelle version proposer, peut-on (doit-on ?) garder une version des fichiers OCR précédents, quels outils pour le contrôle et la comparaison, quels critères et quelles méthodologies enfin faudrait-il mettre en place ? Comment le travail sur les entités nommées pourrait être pris en compte ?

Passerelle Bibliothèque nationale de France
Passerelle Bibliothèque nationale de France

Ces questions posées par le projet pourront conduire à la mise en place de nouvelles synergies entre les différentes entités de ce grand établissement. Plus largement, en fonction des thématiques, une sélection documentaire concertée pourrait voir le jour au niveau européen. Mais ce serait là le début d’une autre histoire, qui dépasserait de très loin les seuls journaux de la BnF et le périmètre du projet…

Cet article en anglais est disponible ici.

Leave a Reply

Your email address will not be published. Required fields are marked *

*