Accueil » Projet


Le projet

Responsable : Anne-Marie Mercier-Faivre - Groupe 18e siècle-Lyon UMR 5611 (LIRE)

Sommaire

  1. Intérêt scientifique de la constitution d'une collection numérisée des gazettes européennes de langue française
  2. Historique du projet : l'expérience de la Gazette d'Amsterdam, une numérisation en mode image
  3. Le projet « Gazette de Leyde »
  4. Développements du projet

Intérêt scientifique de la constitution d'une collection numérisée des gazettes de langue française

Pour comprendre l'intérêt scientifique de ce projet, il faut, comme le rappelle Pierre Rétat dans la présentation des cédéroms de la Gazette d'Amsterdam, prendre en compte la place de la presse européenne de langue française dans la civilisation d'Ancien Régime. La presse européenne de langue française sous l'Ancien Régime, essentiellement constituée de gazettes, “ se caractérise par sa vitalité, par le nombre [...] des journaux créés, par sa très large expansion géographique -jusqu'en Russie ou dans l'empire Ottoman avec une forte concentration en Allemagne et dans les Pays-Bas [...] ”. Moyen de diffusion du savoir et des nouvelles “ entre les élites sociales, politiques et intellectuelles [...] dans des zones géographiques très vastes et connectées entre elles ”, les gazettes jouent “ un rôle de médiation et d'unification linguistiques et culturelles. On peut les considérer comme un lieu stratégique de création et d'affirmation d'une conscience européenne au début de l'ère moderne, ce qui leur confère un caractère historique très particulier ”. Ces gazettes transmettent “ une information essentiellement politique de caractère international ”. La presse du 18e siècle d'expression française se caractérise par sa dimension européenne : c'est aussi pour concurrencer la Gazette de France, très contrôlée par le pouvoir royal, qui avait un privilège exclusif sur tout le royaume, que de nombreuses entreprises éditoriales ont vu le jour, à Londres, Bruxelles, Rotterdam, La Haye, Leyde, Amsterdam, Utrecht, Clèves, Cologne, Trèves, Berne et Avignon (qui n'était pas française à l'époque)... Cet ensemble offre donc une masse considérable de textes en langue française, diffusés dans toute l'Europe, jusqu'à Moscou et l'Amérique, une ressource précieuse pour les chercheurs, tant historiens que littéraires : politique, histoire des idées, des sciences et des arts, naissance des formes et du discours journalistique... Toute l'histoire du monde y est inscrite presque au jour le jour ; un même événement peut être relaté à travers des nouvelles émanant de divers endroits, on y lit aussi bien le quotidien des grandes villes européennes (et au-delà, jusqu'à Constantinople et Saint Petersbourg), ou des bourgs de province, jusqu'aux colonies, avec la naissance des états d'Amérique, ou à l'Afrique et l'Asie.

Malheureusement, cette richesse en fait la difficulté : il est très rare de pouvoir consulter une collection complète, les exemplaires étant souvent dispersés dans différents pays. Il est donc important de mettre à disposition des chercheurs cet outil précieux qui permet de relier la culture et l'histoire d'une époque avec ses media d'information. Le groupe de Lyon a mené à bien ce travail en publiant sur CD-Rom la collection de la Gazette d'Amsterdam (1691-1796) et a poursuivi en numérisant d'autres journaux : Gazette dite de Leyde, Courrier d’Avignon, Gazette de Nice, et un dictionnaire géographique (1779) édité spécifiquement pour les lecteurs de journaux

Ces projets ont été via le site mis en lien avec d’autres opérations : gazetier universel (dir. D. Reynaud) et mise en ligne et actualisation des dictionnaires de la presse ancienne (dir. J. Sgard).

Historique du projet: l'expérience de la Gazette d'Amsterdam, une numérisation en mode image

La première réalisation du laboratoire fut la collection de la Gazette d'Amsterdam qui a été diffusée dans toute l'Europe de 1691 à 1796. Cet ensemble de 12 cédéroms, qui se voulait le premier élément d'un projet plus vaste de collection des gazettes européennes de langue française sous l'Ancien Régime, a été publié en 2000 par la Voltaire Foundation. Notre laboratoire s'est intéressé depuis 1993 à l'édition numérique des gazettes.

Une première demande de financement a été soumise à la fondation Volkswagen, sans résultat positif. C'est en 1994 que le projet a vraiment pu prendre corps, cela grâce à des crédits alloués par le Ministère des affaires étrangères. Pierre Rétat avait découvert dans les réserves du fond ancien de ses archives une belle collection annotée de la Gazette d'Amsterdam. Pascale Ferrand et Pierre Rétat ont alors travaillé à la reconstitution et à l'archivage numérique de cette gazette avec l'appui technique du responsable informatique de l'ISH qui était alors Daniel Roux, actuellement en poste dans l'équipe Histoire de l'Art. Notre budget global était de 200KF, 80 ont été utilisés pour le microfilmage. Pour exploiter le corpus d'une ampleur considérable que constitue une gazette, il fallait d'abord résoudre le difficile problème documentaire qu'elle représente et qui a fait que cette source historique a longtemps été négligée “ non seulement à cause des orientations passées de la science historique, mais aussi à cause de graves difficultés de consultation des collections ”. Celles que l'on trouve sont en effet rares, dispersées, toujours lacunaires et d'un accès difficile. C'est pourquoi, précisément, on souhaitait reconstituer les collections et les reproduire pour en favoriser la consultation. Cependant, cette reproduction se heurtait à l'obstacle majeur que constitue la massivité des corpus. En reproduction papier de type fac simile, il aurait fallu constituer d'énormes collections difficilement publiables. Chaque livraison d'une gazette de type classique comprenant 6 à 8 pages, le total d'une collection, par exemple pour la Gazette d'Amsterdam, représente plus de 80.000 pages. C'est donc la possibilité de reproduire les gazettes sous forme numérique qui a permis de franchir cet obstacle et a suscité l'intérêt des chercheurs désirant avoir à leur disposition un “ reprint électronique ” de la totalité d'une collection de gazette. Cette réalisation s'est faite en trois étapes : une étape de recherche et d'identification de l'archive, une étape de recueil sous forme de microfilms enfin une étape de numérisation et d'organisation des données numériques.

Étape de recherche et d'identification de l'archive

Cette première étape est l'aboutissement du travail du laboratoire sur la presse ancienne entrepris dès les années soixante-dix. Travail dont témoignent les publications de l'équipe 18e et, pour ce qui concerne plus particulièrement le repérage des collections, le Répertoire des gazettes européennes de langue française de Pierre Rétat, publié par la Bibliothèque nationale de France.

Étape de recueil de l'information

Il faut souligner tout d'abord que la numérisation directe des gazettes est impossible, les bibliothèques refusant de soumettre leur fonds anciens à cette opération qui endommage les documents. A partir de 1996, nous avons donc reconstitué la collection complète de la Gazette d'Amsterdam, à partir des microfilms qui nous ont été fournis par huit bibliothèques : Bibliothèque du Ministère des affaires étrangères, Archives nationales, Archivio di Stato, de Naples, Bibliothèque Publique et Universitaire de Genève, Bibliothèque municipale de Grenoble, Bibliothèque de l'Institut de France, Bibliothèque Mazarine, Bibliothèque Sainte-Geneviève. Ces bibliothèques ont bien sûr été choisies en fonction de leurs collections, mais aussi parce qu'elles acceptaient le microfilmage de leurs gazettes et ne nous demandaient pas de copyright, le problème de la négociation des droits demeurant un point délicat.

Étape de numérisation en mode image et de présentation de l'archive

Nous avons fait numériser ces microfilms en format image, ce mode ayant l'avantage de reproduire le document en conservant sa forme originale, élément que tout connaisseur du livre et des textes anciens apprécie. Nous avons choisi comme format logique de numérisation le tiff TCITT Groupe 4 multi pages et comme format de diffusion le pdf. Ce dernier format, tout juste développé à l'époque, présentait l'avantage d'être multi plateformes et d'offrir un viewer libre de droit : Acrobat Reader. Ce choix s'est révélé judicieux puisque ce format s'est généralisé dans les années qui ont suivi. Une fois l'archive numérisée, et la collection reconstituée, nous avons dû contrôler la lisibilité de chaque image et vérifier l'intégrité des livraisons (plus de 11.130). Phase dont il ne faut jamais négliger la durée.

Les trois phases de repérage, d'archivage et de numérisation étant achevées, la question s'est posée de la présentation et donc de l'indexation de cette archive massive. Nous sommes partis du fait qu'elle est naturellement découpée en unités de 6 à 8 pages, constituant une livraison de la gazette, laquelle est repérable par sa date et son numéro d'ordre annuel. Nous avons donc indexé la Gazette d'Amsterdam à partir de ces critères, ce qui donne plus de 11.000 points d'entrée dans le texte. A cette époque nous nous étions posé la question d'une indexation complémentaire. Nous avions écarté d'office l'indexation thématique parce que cette archive numérique était susceptible d'intéresser aussi bien les historiens que les littéraires ou d'autres types de lecteurs, ce qui excluait de dresser un index thématique trop spécifique. Nous avions ensuite écarté une indexation en full text. D'une part parce que les essais d'OCR réalisés à l'époque étaient restés sans succès (90% des caractères étaient rejetés), d'autre part parce que l'utilité d'une telle indexation, rapportée au temps qu'il aurait fallu investir pour constituer un OCR efficace, n'était pas probante. Ce choix d'une réalisation en mode image ne nous est pas propre puisqu'il est aussi celui de la BnF dans son projet d'archivage des journaux publiés entre 1814 et 1944. Notre édition des textes numérisés a cependant une supériorité notable sur celle offerte par Gallica puisqu'elle permet d'accéder directement à la première page d'un numéro du périodique reproduit.

Le projet "Gazette de Leyde"

Notre laboratoire s'est depuis intéressé à un mode de mise à disposition des collections de gazette qui permettrait d'aller au-delà du « reprint électronique » et permettrait de circuler dans le texte grâce à une indexation de termes « sensibles ». - Nous avons écarté l'indexation thématique parce que notre archive numérique était susceptible d'intéresser aussi bien les historiens que les littéraires ou d'autres types de lecteurs, ce qui excluait de dresser un index thématique trop spécifique. - Nous avons ensuite écarté une indexation en full text parce que l'utilité d'une telle indexation, rapportée au temps nécessaire pour la constituer sans OCR efficace sur les textes du XVIIIe siècle, n'est pas probante (la Gazette de Leyde représente entre 324 millions (hypothèse basse) et 428 millions de caractères).

Cela nous a amenés à nous demander si tous les éléments du texte sont une clef d'entrée pour les lecteurs contemporains d'une gazette du XVIIIe siècle. La réponse est « non ». Il s'agit donc pour nous de déterminer quels éléments textuels sont le plus souvent recherchés par les lecteurs qui ne se satisfont pas d'un accès à la gazette par date ou numéro de livraison ? Lorsqu'on examine une gazette, dans un premier temps on constate que le titre de la rubrique , « A Venise, le 17 Février », permet de trouver une nouvelle recherchée. Cependant la lecture des gazettes montre que l'intitulé des nouvelles ne rend pas toujours compte de leur contenu. Ici la nouvelle est celle apportée par un courrier de Rome et concerne cette ville. De même « les nouvelles de Turquie sont susceptibles d'apparaître dans les rubriques Allemagne (article de Vienne) ou Italie (article de Venise) [...] les nouvelles d'outre-atlantique [sont] souvent incluses dans les rubriques Grande-Bretagne ou PAYS-BAS ». Les nouvelles de Chine et des côtes asiatiques par exemple « passent aussi bien par Rome [...] que par Constantinople via Vienne [...] ou bien Madras [...] ».

Il faut donc examiner la gazette d'un point de vue purement formel. On constate alors que les italiques abondent dans un texte majoritairement imprimé en romanes. Ces italiques sont toujours utilisées pour noter les noms ou adjectifs de lieu et les patronymes. La possibilité d'entrer dans le texte en interrogeant le mot « Rome » par exemple permet donc d'atteindre aussi bien les nouvelles en provenance de cette contrée que les nouvelles qui y sont relatives. On constate également que les bulletins et les pièces officielles reproduites par la gazette sont donnés en italiques. Mais, dans ce cas les noms ou adjectifs de lieu et les patronymes sont en romains.

Nous aurions donc besoin d'un système qui permettrait d'indexer le texte de la gazette à partir des mots que la gazette elle-même met en valeur : les italiques dans les blocs en romain et, inversement les romains dans les blocs en italiques. Ainsi il serait possible de trouver ou de suivre une nouvelle, en croisant noms propres et date et/ou lieu d'origine de l'information. D'autre part, afin de pouvoir parcourir le texte de la gazette dans la perspective de recherches thématiques nous aurions besoin d'un système de type word spoting. Pour reprendre une thématique sur laquelle nous avons récemment travaillé : l'écriture de la catastrophe au XVIIIe siècle, nous aurions besoin de rechercher par exemple toutes les occurrences d'une série telle que : Catastrophe Désastre Fléaux Tremblement de terre Secousse Peste ..... Nos besoins se situent donc entre ce que propose Gallica et ce que promet Google : entre collection d'images sans indexation et full text. Plus qu'une solution de compromis ce que nous recherchons c'est une solution qui adapterait l'indexation aux spécificités de l'objet indexé et de la lecture qui en est faite par le lecteur contemporain.

A partir de septembre 2005, le professeur Hubert Emptoz, directeur de l'équipe Numérisation et Reconnaissance dans les Images de documents (intégrée dans le LIRIS (Laboratoire d'InfoRmatique en Image et Systèmes d'information, Lyon)) s'est associé à notre projet dans le cadre du Cluster 13 ((Culture, patrimoine et création/ numérisation et reconnaissance des documents)), structure fonctionnant avec des fonds de la région Rhône Alpes et dirigée par Philippe Régnier (CNRS). Une bourse de doctorant a été allouée à Loris Eynard, en thèse avec H. Emptoz, et celui-ci a travaillé au développement des outils de recherche et de transcription utilisés sur le site.

Avec l'aide du directeur de la BIU, M. Micol et de la conservatrice du fond ancien, Mme Perrat, nous avons pu numériser en numérisation directe et en 800 DPI l'année 1785 de la gazette, présente dans leurs collections. Le démontage de la reliure (une reliure du XIXe siècle, fort heureusement pour nous, peu intéressante) a permis de réaliser un travail de qualité qui a servi de support à la recherche portée par le LIRIS et nous a permis de préciser le cahier des charges pour la numérisation pour que les années de la gazette de Leyde soient prêtes pour une exploitation en mode reconnaissance de mots. Malheureusement, le développement des résultats de recherche en informatique est pour l’instant en panne ; nous devons attendre que les outils de reconnaissance de caractères progressent encore pour exploiter cette fonction - ou espérer une nouvelle aide dans ce sens)

Un partenariat avec la Bibliothèque royale de Belgique nous a permis d’avoir accès à leurs collections. Elles ont été numérisées à Bordeaux par l’entreprise E-criture. Pascale Ferrand (UMR LIRE) et sa collaboratrice Laura Donvito ont mis en forme les fichiers, les informaticiens-documentalistes Christophe Lemius (ISH-UMR LIRE) et Raphael Tournoy (ISH-SID) ont aidé à l’élaboration du site et à la mise en ligne.

Nous avons depuis numérisé les années 1750-1789 de la gazette de Leyde et nous nous appuyons sur l'aide de la région Rhône-Alpes (via les « ARC », qui a remplacé les clusters) et d'autres structures pour poursuivre cette entreprise. Début 2012, ne restent à mettre en ligne que les années 1770-1774 de la période numérisée à Bruxelles (1750-1789).

Nous souhaitons pouvoir d’ici quelques années élargir la collection à la première moitié du siècle.

Développements du projet

Elargissement à d'autres gazettes

Le Courrier, dit Courrier d'Avignon, a été numérisé par les bibliothèques municipales d'Avignon et de Marseille. Grâce aux crédits alloués par le Cluster, le centre 18e Lyon a acheté des copies sur CD Rom et a mis en ligne en 2011 les collections de cette gazette. Ces deux Bibliothèques nous ont accordé la possibilité d'une mise en ligne accessible à tous.

Restent à mettre en ligne (en 2012) les années 1754-1773, numérisées et traitées à cette date et les années 1789-1793.

Création d’un répertoire de liens vers la presse ancienne numérisée

Une rubrique de liens vers la presse ancienne numérisée et déjà en ligne, créée par Denis Reynaud (LIRE/Lumière-Lyon2) a été ajoutée à ce site en juillet 2009. Cette rubrique sera régulièrement enrichie.

Publications annexes

Création d’un répertoire de liens vers la presse ancienne numérisée

Une rubrique de liens vers la presse ancienne numérisée, le « Gazetier universel », créée par Denis Reynaud (LIRE/Lumière-Lyon2) a été ajoutée à ce site en juillet 2009. Cette rubrique est régulièrement enrichie.

Anne-Marie Mercier-Faivre

Certains éléments de ce résumé sont extraits de textes présentés aux rencontres Lyon-Bergen sur la lecture numérique (septembre 2005) et aux Rencontres régionales « Numérisation et valorisation du patrimoine écrit » (avril 2006) par P. Ferrand et A.-M. Mercier-Faivre, (UMR LIRE)