Découvrir, comprendre, créer, partager

Article

Le livre numérique

Liseuse électronique
Liseuse électronique

© Bibliothèque nationale de France

Le format de l'image est incompatible
Les progrès de l'informatique n'ont pas épargné le secteur du livre. La numérisation du livre représente un changement fondamental, dont les conséquences restent encore à mesurer.
 

Le 20e siècle a été marqué par les progrès fulgurants de l'informatique qui occupe une place toujours plus grande dans nos activités professionnelles et personnelles. En parallèle, les avancées des technologies de la télécommunication nous ont pleinement ancré dans ce qu’il est convenu d’appeler « la société de l’information », société où les échanges informationnels sont facilités par les évolutions rapides des supports et terminaux de communication, fixes ou mobiles, et des infrastructures techniques de réseau. Le livre, véhicule privilégié du savoir et de la culture écrite depuis plus de mille ans, n’est pas épargné par ces métamorphoses technologiques, au point qu’on parle, au sujet de sa transposition dans le monde numérique, d’une révolution aussi puissante que l’invention du codex ou de l’imprimerie, et de la disparition à terme du livre traditionnel.

On se souvient que les inventions du cinéma, de la radiodiffusion, de la télévision, avaient en leur temps conduit à penser qu’une nouvelle société de l’image et du son se substituerait à celle de l’écrit, celle de l’édition et de la presse. Aujourd’hui, au terme de la première décennie du 21e siècle, la diversification des modes et des supports de l’information, leur juxtaposition plutôt que leur substitution invitent à des jugements plus prudents.

Le livre numérique n’échappe pas à l’ambiguïté originelle attachée au terme de « livre », qui désigne tout aussi bien l’œuvre elle-même (« as-tu les livres de cet écrivain » ?), que l’objet dans toute sa matérialité (« ce livre contient des annotations manuscrites »).
Le terme anglais de e-book hésite encore entre la désignation du support (lecteur de livres numériques) et celle du contenu. Le livre numérique est un nouvel objet, formé par la transposition d’une œuvre textuelle sur des médias électroniques. Mais le livre est également une forme, un mode particulier d’organisation du discours textuel, qui obéit à un modèle relativement stable et codifié par plusieurs siècles de travail éditorial, selon des caractéristiques aisément identifiables : succession de pages reliées entre elles, division en chapitres, page de titre, table des matières, index, etc.). Cette structure interne du livre, ce modèle formel du discours, ne subit pas lors de sa conversion électronique de modifications majeures.

Un livre numérique est constitué d’un fichier informatique ou d’un ensemble de fichiers, auquel sont associées des données qui les décrivent : les métadonnées. À la différence du livre traditionnel, dont le contenu s’offre aux yeux du lecteur en toute immédiateté, le livre numérique ne se donne à lire que par l’intermédiation de différentes couches techniques, qui vont de la donnée brute à l’affichage de la page sur support électronique. Sous les lettres, il y a des chiffres : comme tout ensemble de données informatiques, le livre numérique est avant tout composé d’une suite de 0 et de 1, qui sont regroupés par huit (octets), puis encapsulés dans un format de fichier, lui-même interprété par un logiciel, qui est géré par un système d’exploitation, que l’on a installé sur une machine… La lecture du livre numérique dépend donc de la bonne interaction entre toutes les couches matérielles et logicielles et des différentes stratégies technologiques qui ont été adoptées pour produire l’objet final (systèmes, formats, machines).

La numérisation des livres

La conversion numérique d’un livre, ou numérisation, peut s’opérer de deux manières : en mode texte ou en mode image. Le mode texte consiste à obtenir depuis un support papier un texte électronique que l’on peut réutiliser par copier-coller, par exemple, ou qui peut alimenter des bases de données ou des moteurs de recherche. Ceux-ci indexeront chaque mot, c’est-à-dire qu’il sera possible, de façon automatique, de retrouver dans le texte les occurrences de tel ou tel terme. La numérisation en mode texte peut résulter d’une saisie manuelle. Dans ce cas, un opérateur, salarié ou bénévole, recopie le texte du livre sur un logiciel de traitement de texte. C’est de cette façon que les premières initiatives de numérisation ont procédé, depuis le lancement en 1971 (avant l’apparition même de la micro-informatique) du projet Gutenberg, par Michael Hart, à l’université de l’Illinois aux États-Unis.

La numérisation en mode image consiste à scanner chaque page du livre pour obtenir autant de fichiers, qui seront des photographies numériques, fidèles au support original, y compris dans ses imperfections (taches, rousseurs, déchirures, etc.). Le fichier obtenu ne permet pas de réutiliser le texte, par copier-coller, ou de l’indexer, car l’opération de scannage brut n’identifie pas les éléments signifiants de la page : elle ne reconnaît que des points, traduits en pixels, selon une trame dont la finesse est paramétrable (ce qui donne la résolution). Il en résulte un fac-similé de l’ouvrage. Les appareils de scannage ont connu depuis une trentaine d’années des évolutions techniques considérables, rendant possible la numérisation rapide et en partie automatisée de grandes quantités de livres (jusqu’à 3 000 pages par heure).

Par ailleurs, afin de pallier les insuffisances du mode image, des logiciels ont été conçus afin de reconnaître automatiquement la forme des lettres, des mots, des paragraphes sur la page, et de convertir ainsi le mode image en mode texte. Ces programmes comparent les formes repérées optiquement à des dictionnaires, ou bases de termes, et interprètent par probabilité la forme du mot ou de la lettre. Par exemple, une suite de points positionnés dans un certain ordre sera reconnue comme formant la lettre E.

Les logiciels de reconnaissance optique de caractères (en anglais optical character recognition, ou OCR) favorisent aujourd’hui l’industrialisation de la numérisation des livres, même si le taux de qualité de cette reconnaissance automatique varie considérablement d’un document à l’autre (et dans certains cas d’une page à l’autre), et nécessite le plus souvent une correction manuelle du texte ainsi obtenu. Dans ce domaine aussi, les progrès sont importants : les logiciels se perfectionnent, la qualité de la reconnaissance de forme s’améliore (au niveau élémentaire, comme la lettre, ou structurelle, comme la segmentation de la page en paragraphes), y compris pour les typographies plus anciennes (16e siècle, 17e siècle) ou même l’écriture manuscrite. Les formats les plus utilisés aujourd’hui pour le mode texte sont le PDF et l’Epub ; pour le mode image, ce sont le TIFF, le JPEG et le JPEG2000. La combinaison de ces deux modes permet de bénéficier de la puissance de la recherche plein texte en conservant la mise en page et l’aspect visuel du livre d’origine.

Les supports du livre numérique

La consultation des livres numériques peut s’effectuer sur une variété de supports, qui présentent des fonctionnalités très différentes (écrans d’ordinateur, liseuses de livres électroniques, smartphones et tablettes multimédias). S’agissant du premier d’entre eux, l’écran de l’ordinateur, force est de constater qu’il est a priori peu adapté à la lecture d’un livre, dont la caractéristique principale est la verticalité de la page. Aujourd’hui, les écrans d’ordinateur s’allongent, comme ceux des télévisions, notamment sous l’influence du format video 16/9. Cependant, l’ordinateur reste le support le plus utilisé pour la lecture de livres numériques (dans 64 % des cas), sans doute à cause du taux d’équipement important dans les foyers et de la place qu’occupe en général l’ordinateur dans notre vie quotidienne. De fait, celui-ci bénéficie de l’amélioration continuelle de la qualité des écrans réduisant fortement le scintillement et l’impression de fatigue oculaire. De plus, l’ordinateur personnel se décline aujourd’hui en plusieurs formats, plus ou moins compacts, plus ou moins adaptés à un usage nomade ou portable : après les ordinateurs portables, sont apparus les « ultra-portables », les netbooks, et bientôt des appareils à mi-chemin entre le netbook et le smartphone.

Cependant, en 2006 et 2007, plusieurs fabricants ont fait le pari de développer des appareils destinés uniquement à la lecture de livres numériques, le micro-ordinateur étant jugé trop généraliste pour répondre parfaitement à cet usage émergent. Parmi ces appareils dédiés, appelés « liseuses électroniques », citons le Kindle d’Amazon, le Booken de Cybook et le Sony Reader de Sony, qui sont les plus répandus sur le marché actuel. Ces « liseuses » se caractérisent notamment par des capacités de stockage allant de 300 à 3 500 titres, mais surtout par l’utilisation d’écrans reposant sur la technologie dite de l’encre électronique (e-ink), aux propriétés innovantes : une très faible consommation d’énergie électrique (uniquement lors du chargement de la page), l’absence totale de scintillement, la souplesse et la finesse du support, proche du papier.

En dépit de leurs indéniables atouts, les liseuses électroniques se heurtent à la concurrence de nouveaux appareils polyvalents, comme les téléphones mobiles intelligents, ou smartphones), ou les nouvelles tablettes multimédias (comme le iPad d’Apple). Résolument tournés vers les usages du web, ergonomiquement attractifs, disposant de riches catalogues d’applications ludiques ou d’utilité pratique, ces nouveaux objets technologiques, qui permettent la lecture de livres numériques sans être limités à cet usage, trouvent bon accueil auprès du grand public. De manière plus inattendue, les consoles de jeux vidéo portables pourraient bientôt constituer un nouveau support pour la lecture numérique, comme le montre un accord passé entre le constructeur Nintendo et l’éditeur Gallimard.

Lien permanent

ark:/12148/mmdncgg31dk2f