Jui
24
2012
Ecrit par
Patrick Moll
[
NdLR : je vous propose une introduction au format Raw extraite (et légèrement adaptée pour le web) du début du deuxième chapitre de mon livre Le format Raw : développement et flux de production, paru aux Éditions Dunod. Cette introduction est découpée en trois parties et dotée de liens de circulation des unes vers les autres. Voici la première partie, intitulée dans le livre De la lumière à l'image.]
Pour comprendre le fonctionnement et percevoir tout l’intérêt du format Raw, il est important de connaître les principes fondamentaux de la capture et de la transformation du signal lumineux. Il ne s’agira toutefois pas d’entrer dans des détails sur la constitution et le fonctionnement interne d’un capteur imageur, sans intérêt dans le cadre de cet ouvrage.
Nous allons examiner le processus qui transforme la lumière parvenant sur le capteur en fichier Raw. Sa transformation en image bitmap par le processeur de l’appareil ne sera qu’évoquée, car c’est précisément de cette phase ultime que le flux de production en Raw veut prendre le contrôle.
Capture du signal lumineux
La lumière, focalisée par l’objectif vers le capteur imageur, est réceptionnée par une matrice formée de millions de cellules photosensibles (les photosites) correspondant à autant de pixels. Pendant la durée d’ouverture de l’obturateur (temps de pose) chaque photosite reçoit les photons et les transforme en charge électrique. La charge accumulée sera donc proportionnelle au nombre de photons reçus, d’où la notion de capture linéaire que nous évoquons plus loin. Cette charge électrique est envoyée séquentiellement vers un convertisseur qui la numérise.
Un photosite peut s’assimiler à un puits au fond duquel se trouve la photodiode qui va réceptionner les photons. La surface utile de ce puits ne représente qu’une partie de celle du pixel. Pour accroître l’efficacité de la capture, les constructeurs ont recouvert le capteur d’un réseau de microlentilles, une par pixel, afin de faire converger une plus grande proportion de la lumière vers les puits des photosites.

Vue schématique d’un photosite de capteur. La microlentille fait converger le maximum de rayons lumineux vers le fond du puits où se trouve la photodiode chargée de réceptionner les photons. Cette technologie accroît la qualité de la capture et augmente le rapport signal/bruit.
Plus un pixel sera large, moins il sera compliqué de diriger une grande proportion des rayons lumineux vers le puits. Pour cette raison notamment, les capteurs ayant une grande taille de pixels présentent moins de bruit électronique.
La profondeur de codage du signal numérisé dépend des boîtiers. Sur les reflex, elle est le plus souvent de 12 ou 14 bits, ce qui correspond respectivement à 4 096 et 16 384 niveaux de luminosité. La profondeur tonale qui en résulte est l’un des avantages du format Raw sur le Jpeg qui est codé en 8 bits par couche, disposant donc de seulement 256 niveaux de luminosité. En revanche, le gain entre 12 et 14 bits n’est pas significatif, car le supplément de finesse d’échantillonnage des tonalités ainsi procuré est pour l’essentiel noyé dans le bruit.
Au cours de cette conversion analogique/numérique, le signal subit une double réduction du bruit électronique, sur le signal analogique d’abord, puis après sa numérisation. Ce bruit survient lors du transfert de la charge électrique, mais une partie est d’origine thermique (échauffement du capteur notamment). Cette opération de réduction dès la phase de capture est hors du contrôle de l’utilisateur, mais essentielle pour produire l’image la moins bruitée possible et réduire le besoin d’un traitement en aval.
À noter que la réduction du bruit sur le signal numérisé n’est pas du goût de tous les utilisateurs, notamment des astrophotographes pour lesquels cela peut représenter une catastrophe. La valeur d’un pixel jugée erronée par l’appareil peut en effet correspondre à une étoile dont le diamètre apparent est faible. Sa très petite taille sur le capteur pourra alors la faire passer pour un grain de bruit électronique...
Ici s’arrête la phase de capture et débute le travail du processeur de l’appareil, le DSP (Digital Signal Processor). Celui-ci produit, en fonction du paramétrage de l’utilisateur, deux types de fichiers :
- un Raw, enregistrement formaté du signal numérisé augmenté de nombreuses métadonnées décrivant les conditions de la prise de vue ;
- un Jpeg, image de type bitmap résultant de la conversion du Raw (le Tiff est en voie d’abandon complet par les constructeurs).
C’est bien entendu le Raw qui nous intéresse ici, car il préserve le maximum d’informations issues de la capture brute du signal lumineux, quand le Jpeg n’en est qu’une interprétation, codée en seulement 8 bits par couche et compressée avec perte. Entrons à présent plus en détail sur quelques caractéristiques essentielles de cette phase de capture du signal lumineux.
Sensibilité et amplification du signal
Le capteur a une sensibilité fixe (à l’instar du film argentique). Cette sensibilité, dite nominale, n’est pas communiquée par les constructeurs, mais elle peut s’évaluer en analysant les fichiers Raw. Celle des reflex se situe entre 100 et 200 ISO selon les marques et les modèles. On peut trouver une évaluation des sensibilités réelles des boîtiers sur le site
dxomark.com.
Le capteur ne devient pas miraculeusement plus sensible lorsque la valeur ISO est augmentée par le photographe. Pour pouvoir accroître le signal (proportionnel à la lumière reçue) sans augmentation du temps de pose (donc de la quantité réelle de lumière), l’appareil procède à une amplification analogique. Il s’agit donc d’un artifice électronique, ce qui explique l’augmentation corrélative du bruit.
Une analogie avec le signal audio permet de mieux comprendre les problèmes engendrés par cette amplification :
- Quand le niveau du son enregistré est fort, il n’est pas besoin de l’amplifier pour le percevoir normalement lors de sa diffusion. Le son est alors propre, sans bruit parasite. C’est ce qui se passe en photo quand on utilise son appareil à la sensibilité nominale du capteur, avec une bonne exposition: la quantité de lumière reçue est optimale et permet la production d’une image de haute qualité.
- Quand le son a été enregistré à un niveau faible, il faut l’amplifier pour qu’il devienne audible. Le problème est que tout enregistrement audio présente un bruit de fond. Son niveau pouvant, en première approximation, être considéré comme constant, il est donc en valeur relative d’autant plus important que le signal enregistré est faible. Lors de l’amplification, ce bruit de fond est amplifié en même temps que le signal audio lui-même, ce qui aboutit à la perception de bruits parasites et d’un « souffle », avec une qualité de signal dégradée. C’est la même chose en photo: si la quantité de lumière qui arrive sur le capteur est faible, il faut l’amplifier. Le bruit l’est alors également, et atteint un niveau d’autant plus élevé que le signal est faible.
La montée du bruit, qui réduit le rapport signal/bruit, a un autre effet négatif : la réduction de la dynamique, de façon quasi proportionnelle à la valeur ISO.

Sur ce graphe produit par DxO Labs (dxomark.com) et mettant en piste trois compacts hybrides de même gamme, on constate les formes (différentes selon les marques) que prend la décroissance de la dynamique au fil de la montée en ISO. Au-delà de 800 ISO, la perte de dynamique se situe dans tous les cas autour de 1 IL (ou EV pour Exposure Value) par palier ISO. Le NEX-5N, qui dispose d'une excellente dynamique de près de 13 IL à 100 ISO, se retrouve ainsi avec "seulement" 6,5 IL à 25600 ISO...
La dynamique du système étant définie comme l’écart entre la plus forte et la plus faible luminosité qui peuvent être enregistrées, sa diminution a ainsi des conséquences importantes sur la capacité de l’appareil à restituer correctement des scènes très contrastées. Même lorsque le bruit est bien maîtrisé, en amont ou en aval de la capture, l’image prise à hauts ISO n’est donc pas exempte de défauts. La restitution des détails fins est altérée, la dynamique est réduite et la saturation des couleurs affaiblie, malgré les énormes progrès des processeurs et des logiciels de développement ces dernières années.
Comment le capteur distingue les couleurs
Nous avons vu que le capteur était en quelque sorte un compteur de photons. Il est sensible à l’intensité de la lumière, mais il n’a pas la capacité d’en mesurer la longueur d’onde. Il ne peut donc en déterminer la couleur. Deux technologies ont été développées pour pallier ce daltonisme achromatique. La première fait appel à un système de filtrage, imaginé par Bayer, un ingénieur de Kodak. Elle équipe une grande majorité des capteurs actuels. La seconde, plus récente et particulièrement ingénieuse, est à mettre au crédit de la société Foveon, mais elle concerne à ce jour très peu de boîtiers.
Le principe de la matrice de Bayer est de recouvrir chaque photosite du capteur par un filtre coloré qui ne laisse passer qu’une seule composante (rouge, verte ou bleue) des trois couleurs primaires à synthèse additive. Ainsi, l’intensité lumineuse mesurée par un photosite ne correspond qu’à l’une des couleurs RVB, celle du filtre qui le recouvre.
Chaque photosite est recouvert d’un filtre coloré et ne reçoit l’information d’intensité lumineuse que d’une seule composante RVB. Sur ce graphique, le processus est schématisé, car dans la réalité le filtre de Bayer et le réseau de microlentilles sont des éléments séparés.
La capture est donc parcellaire puisque seulement une partie de l’information est enregistrée pour chaque pixel. Le damier que forme le filtre de Bayer est une répétition du motif comprenant deux filtres verts, un rouge et un bleu. La composante verte de la lumière est donc mesurée pour un pixel sur deux, mais un seul pixel sur quatre pour les composantes rouge et bleue.
Les capteurs ayant adopté la solution de filtrage de Bayer sont recouverts d’un filtre en damier composé de 50 % de vert, 25 % de rouge et 25 % de bleu.
Ce déséquilibre en faveur du vert n’est évidemment pas le fruit du hasard. Il tient compte de la plus grande sensibilité de la vision humaine au vert et au jaune.
Ce graphique correspond à la réponse spectrale normalisée des trois types de cônes récepteurs de la vision humaine. Les cônes de type S sont sensibles aux courtes longueurs d’onde, les M aux longueurs d’onde moyennes et les L aux grandes longueurs d’onde. On constate que le vert et le jaune sont privilégiés.
Ce sont donc trois couches RVB incomplètes qu’enregistre le capteur. Le processeur de l’appareil, ou le logiciel de développement dans le cas d’un enregistrement en Raw, devra donc reconstituer les informations manquantes de chaque couche pour produire l’image finale. Cette opération s’appelle dématriçage; nous l'évoquerons dans la partie suivante.
Ajouter un Commentaire