Gallica compresse ses pages par la méthode ccitt fax group 3.
C'est une méthode utilisée pour les fax. C'est une compression sans perte contrairement au jpeg.
C'est une méthode assez performante, à condition que les images soient bicolores (noir et blanc), et qu'une couleur soit assez fortement dominante (le blanc entre les pixels noirs des caractères).
L'algorithme (qu'il ma fallu plusieurs semaines pour bien comprendre), est basé sur du rle pour la première ligne du document, puis sur les décalages entre la ligne en cours et la ligne précédente. On appelle cela de la compression bi-directionnelle (contrairement à la compression uni-directionnelle utilisée antérieurement pour les anciens fax).
Google books utilise la méthode de compression flatdecode, autrement dit celle du zlib, que l'on retrouve par exemple dans les images png. C'est assez performant, peut-être même plus que le ccitt fax 3, bien que cela le soit moins que le pkzip, par exemple.
Mais les différences des ratios de compression entre les différentes méthodes ne sont pas très importantes. Ce qui compte surtout est d'avoir un seul bit par pixel, car on utilise le noir et blanc, au lieu de 24 bits par pixel comme c'est souvent (pas obligatoirement) le cas en jpeg, qui est souvent configuré pour une compression couleur (alors qu'il peut aussi faire une compression noir et blanc).
Message édité par olivthill le 19-05-2010 à 12:19:03