Février 2005

Tous les livres du monde sur mon micro

Le Californien Google se dispose à offrir (presque) tous les livres sur internet, en mode traitement de texte. Une gifle pour les Européens qui n'ont rien vu venir.

D'ici quelques années, nous devrions disposer sur nos ordinateurs de plusieurs millions de livres anciens en mode traitement de texte, avec possibilité de recherche par mot, d'analyse lexicale... Il était temps que les exploits technologiques réalisés dans les télécoms servent à autre chose qu'à télécharger des sonneries de portable ou des photos pornographiques.

L'initiative est à mettre au crédit de Google, une entreprise qui n'existait pas il y a sept ans ! Elle veut s'inspirer du « projet Gutenberg » : lancé en 1971, par Michaël Hart, il offre d'ores et déjà un libre accès à près de 20.000 ouvrages intégraux en traitement de texte dont un certain nombre en langue française (originaux et traductions). Le projet de numérisation de Google passe par une entité spécialisée, Google Print.

Sans doute n'est-il pas sûr que la numérisation aille aussi vite et aussi loin que l'assurent les cofondateurs de Google, Larry Page et Sergey Brin. Ceux-là se montrent très optimistes en évaluant à une vingtaine de dollars tout compris le coût moyen de numérisation d'un ouvrage ancien. On peut se demander quels robots pourront combiner la délicatesse, la précision et la rapidité requises!

Pour le financement, Google évoque le recours à la publicité... mais qui peut prévoir ce que sera l'économie de l'internet dans une dizaine d'années au rythme actuel du changement? Il est vraisemblable qu'au lieu de publicité, les utilisateurs paieront de leur poche la consultation et le téléchargement des ouvrages, ce qui paraîtra normal au vu du service rendu... et assurera une confortable rentabilité à l'entreprise de Google.

Même s'il ne va pas aussi loin que prévu, le projet Gutenberg de Google illustre le dynamisme de la nouvelle économie américaine et lance un défi aux représentants de l'Europe. Jean-Noël Jeanneney, président de la BNF (Bibliothèque Nationale de France), ne s'y est pas trompé si l'on en juge par ses interventions dans la presse. Il fait valoir les sommes «énormes» mobilisées par l'entreprise capitaliste pour s'excuser de ne pouvoir en faire autant avec les crédits publics.

Allons donc! Le coût prévisionnel du projet de Google, étalé sur une quinzaine d'années, s'avère des plus modestes au regard de l'enjeu: 200 millions de dollars. C'est environ 10% du budget de fonctionnement de la BNF sur la même durée (ou 1% du bénéfice d'Exxon en 2004).

Demandons-nous pourquoi les Européens, si imbus de leur «exception culturelle», se sont laissé devancer par de jeunes patrons californiens sur un enjeu aussi important que la diffusion à grande échelle de la littérature mondiale...

Un rêve en sursis

Voilà plusieurs années déjà que trotte l'idée d'une bibliothèque virtuelle qui mettrait à la porté de chacun, par la grâce de l'informatique, toutes les oeuvres écrites depuis la nuit des temps.

Jacques Attali en rêvait dans les années 1980 quand il faisait office de conseiller le président de la République française. Il avait suggéré à François Mitterrand de reconstruire la vénérable Bibliothèque Nationale et de numériser par la même occasion ses 15 millions d'ouvrages.

Lui-même faisait confiance à la technologie pour surmonter rapidement les énormes obstacles inhérents à la numérisation automatique des livres anciens (typographique aléatoire, papier usé, pages délicates à effeuiller...). Après tout, le pari de Kennedy, en 1961, d'envoyer un homme sur la Lune avant 1970 n'était-il pas encore plus fou ? Tout est question de volonté.

Monarque républicain, le président Mitterrand n'avait retenu que l'idée d'un mausolée à sa gloire et il en avait accéléré les travaux pour pouvoir l'inaugurer avant sa mort... D'où le caractère bâclé et antifonctionnel de la Bibliothèque Nationale de France, pour un coût démesuré de 1,2 milliards d'euros.

Sur le site de Tolbiac, à l'est de Paris, les livres sont stockés en hauteur, derrière des parois de verre (une aberration absolue alors que se profile le réchauffement climatique). L'informatique et la sécurité contre le vol font régulièrement la Une de l'actualité du fait de graves défaillances; l'architecture impose par ailleurs aux piétons des cheminements longs et malcommodes (plusieurs centaines de mètres entre les salles de lecture)...

Le projet de bibliothèque virtuelle rêvé par Jacques Attali a quant à lui été réduit à la portion congrue, sous le nom de Gallica.

Un rythme trop lent

Avec 86.000 ouvrages numérisés au bout de dix ans, sur un total d'environ 15 millions, la BNF n'est pas de sitôt en mesure de proposer la bibliothèque universelle au bout de la souris à laquelle chacun est en droit de rêver. Ses consoeurs européennes ne semblent guère plus avancées.

- Les documents les plus anciens numérisés sur Gallica sont en mode image, autrement dit «photographiées» sous format JPEG/JPG, page par page. Difficile souvent de faire autrement en raison de l'état des ouvrages...

- La plus grande partie des documents du site Gallica sont en mode TIF ou PDF. Ces documents peuvent être facilement consultés sur écran. Ils peuvent être explorés (recherche d'un mot) et transcrits automatiquement en traitement de texte avec un logiciel Adobe Acrobat lorsque la police de caractères s'y prête. Le format TIF est également convertible en traitement de texte avec Microsoft Office.

- Gallica présente aussi quelques documents en mode traitement de texte (le plus pratique pour la lecture, l'analyse lexicale et le téléchargement). C'est le cas de l'oeuvre de Balzac.

On pourrait souhaiter que, dans un premier temps, la BNF accélère la numérisation en mode traitement de texte. Celle-ci n'est pas très coûteuse lorsqu'elle concerne des ouvrages imprimés dans les deux derniers siècles avec des polices de caractères standard.

Et pourquoi ne pas imposer que les dépôts légaux des ouvrages à paraître soient livrés sous forme numérique ? Cela faciliterait la conservation de ces ouvrages et permettrait de les mettre à la disposition des internautes sous format numérique (en contrepartie d'une rémunération des auteurs et des éditeurs).

Initiatives dispersées

Gardons-nous d'une approche administrative et centralisée de la numérisation. Il n'est pas besoin de faire intervenir la Commission européenne comme le demande Jean-Noël Jeanneney, si ce n'est peut-être pour financer la mise au point d'un robot de numérisation approprié aux livres anciens et fragiles!

Il existe déjà sur la Toile, en marge du project Gutenberg, des initiatives dispersées qui méritent d'être encouragées. Elles viennent d'institutions locales ou même de particuliers qui recensent les oeuvres littéraires déjà disponibles en ligne.

Notons la Bibliothèque universelle ABU créée en 1993 par le CNAM, la Bibliothèque électronique de Lisieux créée par Olivier Bogros, la Bibliothèque Athena et La langue française du XIXe siècle de l'Université de Toronto. Mention spéciale à la sélection d' auteurs classiques en sciences sociales (dont beaucoup d'historiens) par Jean-Marie Tremblay et son équipe de bénévoles, en coopération avec l'Université du Québec à Chicoutimi. En matière de manuscrits anciens, on relève une belle collection de la Bibliothèque Mazarine (Paris). A signaler la présentation remarquable d'un vieux manuscrit du XVIIe siècle par l'IRHT/CNRS : la Lettre volée.

Les initiatives plus modestes ne manquent pas. Ainsi le site Livresse propose-t-il quelques romans en ligne dont Les Misérables, Notre-Dame de Paris et Germinal. Numilog propose des textes gratuits et d'autres payants.

Toutes ces initiatives mises bout à bout offrent déjà un bel aperçu de la langue et de la culture françaises. Elles gagneraient à bénéficier d'une certaine coordination (sous la forme par exemple d'un «index général») en vue d'éviter les doublons et pourquoi pas ? de mobiliser les internautes autour d'une numérisation progressive de l'ensemble des oeuvres littéraires de notre langue. Le net des Études françaises s'est essayé à une compilation de ces initiatives.

Changement inéluctable

L'indifférence des gouvernements européens à l'enjeu de la numérisation est d'autant plus dommageable que les scientifiques européens sont en pointe dans les techniques concernées (numérisation, traduction...).

Faute de volonté ou d'audace de la part des administrations et des entreprises européennes, il est à craindre que leurs travaux profitent en premier lieu à Google et à quelques autres firmes d'outre-Atlantique.

Pour tout savoir sur le sujet, lire le master professionnel de Delphine Berroneau : Les bibliothèques numériques (Université de Poitiers, 2005).

On peut lire aussi : Google, la bibliothèque virtuelle et la numérisation, par Jean-Michel Salaün, professeur à l'ENSSIB (Le Journal du CNRS, septembre 2005, N°188, page 16).

André Larané, avec l'aimable contribution du Dr Louis Lohlé-Tart
Publié ou mis à jour le : 2018-11-27 10:50:14

Aucune réaction disponible

Respectez l'orthographe et la bienséance. Les commentaires sont affichés après validation mais n'engagent que leurs auteurs.

Actualités de l'Histoire
Revue de presse et anniversaires

Histoire & multimédia
vidéos, podcasts, animations

Galerie d'images
un régal pour les yeux

Rétrospectives
2005, 2008, 2011, 2015...

L'Antiquité classique
en 36 cartes animées

Frise des personnages
Une exclusivité Herodote.net