Niveaux de gris

Dans la photographie, l’informatique et la colorimétrie, une image en niveaux de gris ou en niveaux de gris est une image dans laquelle la valeur de chaque pixel est un seul échantillon représentant seulement une quantité de lumière, c’est-à-dire qu’elle ne porte que des informations d’intensité. Les images de ce genre, également connues sous le nom de noir et blanc ou monochrome, sont composées exclusivement de nuances de gris, allant du noir à l’intensité la plus faible au blanc au plus fort.

Les images en niveaux de gris se distinguent des images bicolores en noir et blanc à un bit, qui dans le contexte de l’imagerie informatique sont des images avec seulement deux couleurs, le noir et le blanc (aussi appelé images binaires ou binaires). Les images en niveaux de gris ont plusieurs nuances de gris entre les deux.

Les images en niveaux de gris peuvent être le résultat de la mesure de l’intensité de la lumière à chaque pixel selon une combinaison pondérée de fréquences (ou longueurs d’onde), et dans ce cas elles sont monochromatiques lorsqu’une seule fréquence (en pratique, une bande étroite de fréquences ) est capturé. Les fréquences peuvent en principe être n’importe où dans le spectre électromagnétique (par exemple infrarouge, lumière visible, ultraviolet, etc.).

Une image colorimétrique (ou plus spécifiquement photométrique) en niveaux de gris est une image qui a un espace colorimétrique défini en niveaux de gris, qui mappe les valeurs numériques stockées au canal achromatique d’un espace colorimétrique standard, lui-même basé sur les propriétés mesurées de la vision humaine.

Si l’image couleur d’origine n’a pas d’espace colorimétrique défini ou si l’image en niveaux de gris n’est pas censée avoir la même intensité achromatique perçue par l’homme que l’image couleur, il n’y a pas de mappage unique d’une telle image couleur à une image en niveaux de gris.

Représentations numériques
L’intensité d’un pixel est exprimée dans une plage donnée entre un minimum et un maximum inclus. Cette plage est représentée de manière abstraite comme une plage de 0 (ou 0%) (absence totale, noir) et 1 (ou 100%) (présence totale, blanc), avec des valeurs fractionnaires intermédiaires. Cette notation est utilisée dans les articles académiques, mais cela ne définit pas ce que «noir» ou «blanc» est en termes de colorimétrie. Parfois, l’échelle est inversée, comme dans l’impression où l’intensité numérique indique combien d’encre est employée en demi-teinte, avec 0% représentant le papier blanc (pas d’encre) et 100% étant un noir plein (encre pleine).

En informatique, bien que les niveaux de gris puissent être calculés à l’aide de nombres rationnels, les pixels d’image sont généralement quantifiés pour les stocker sous la forme d’entiers non signés, afin de réduire le stockage et le calcul requis. Certains premiers moniteurs en niveaux de gris ne peuvent afficher que seize nuances différentes, qui seront stockées sous forme binaire en utilisant 4 bits. Mais aujourd’hui, les images en niveaux de gris (telles que les photographies) destinées à l’affichage visuel (à l’écran et imprimées) sont généralement stockées avec 8 bits par pixel échantillonné. Cette profondeur de pixel permet d’enregistrer 256 intensités différentes (c’est-à-dire, des nuances de gris), et simplifie également le calcul car chaque échantillon de pixel peut être accédé individuellement comme un octet entier. Cependant, si ces intensités étaient également proportionnelles à la quantité de lumière physique qu’elles représentent à ce pixel (appelé codage linéaire ou échelle), les différences entre les nuances sombres adjacentes pourraient être très visibles comme artefacts de bandes, tandis que beaucoup des nuances plus claires serait « gaspillé » en encodant un grand nombre d’incréments perceptivement indiscernables. Par conséquent, les nuances sont généralement étalées uniformément sur une échelle non linéaire compressée gamma, qui se rapproche le plus des incréments perceptuels uniformes pour les nuances sombres et claires, rendant généralement ces 256 nuances suffisantes (juste à peine) pour éviter les incréments perceptibles.

Les utilisations techniques (par exemple dans les applications d’imagerie médicale ou de télédétection) nécessitent souvent plus de niveaux pour utiliser pleinement la précision du capteur (généralement 10 ou 12 bits par échantillon) et pour réduire les erreurs d’arrondi dans les calculs. Seize bits par échantillon (65 536 niveaux) sont souvent un choix pratique pour ces utilisations, car les ordinateurs gèrent efficacement les mots de 16 bits. Les formats de fichiers image TIFF et PNG (entre autres) prennent en charge nativement les niveaux de gris 16 bits, bien que les navigateurs et de nombreux programmes d’imagerie aient tendance à ignorer les 8 bits de poids faible de chaque pixel. En interne pour le calcul et le stockage de travail, le logiciel de traitement d’image utilise généralement des nombres entiers ou à virgule flottante de taille 16 ou 32 bits.

Conversion de la couleur en niveaux de gris
La conversion d’une image couleur arbitraire en échelle de gris n’est pas unique en général; une pondération différente des canaux de couleur représente effectivement l’effet de la prise de vue en noir et blanc avec des filtres photographiques de couleurs différentes sur les caméras.

Conversion colorimétrique (préservation de la luminance perceptuelle) en niveaux de gris

Une stratégie courante consiste à utiliser les principes de photométrie ou, plus largement, de colorimétrie pour calculer les niveaux de gris (dans l’espace colorimétrique cible en niveaux de gris) afin d’avoir la même luminance (luminance techniquement relative) que l’image couleur originale. . En plus de la même luminance (relative), cette méthode assure également que les deux images auront la même luminance absolue lorsqu’elles sont affichées, ce qui peut être mesuré par des instruments dans ses unités de candelas par mètre carré, dans une zone donnée de l’image, étant donné points blancs égaux. La luminance elle-même est définie à l’aide d’un modèle standard de vision humaine. La préservation de la luminance dans l’image en niveaux de gris conserve également d’autres mesures de luminosité perceptuelle, comme L * (comme dans l’espace colorimétrique CIE L ab de 1976). lui-même (comme dans l’espace colorimétrique CIE 1931 XYZ ) que nous appellerons ici Y linéaire pour éviter toute ambiguïté.

Conversion colorimétrique (préservation de la luminance perceptuelle) en niveaux de gris
Une stratégie courante consiste à utiliser les principes de photométrie ou, plus généralement, de colorimétrie pour calculer les niveaux de gris (dans l’espace colorimétrique cible en niveaux de gris) afin d’avoir la même luminance (luminance techniquement relative) que l’image couleur originale ). En plus de la même luminance (relative), cette méthode assure également que les deux images auront la même luminance absolue lorsqu’elles sont affichées, ce qui peut être mesuré par les instruments dans ses unités SI de candelas par mètre carré, dans une zone donnée de l’image, donné des points blancs égaux. La luminance elle-même est définie à l’aide d’un modèle standard de vision humaine. La préservation de la luminance dans l’image en niveaux de gris permet également d’obtenir d’autres mesures de luminosité perceptives telles que L * (comme dans l’espace colorimétrique CIE Lab 1976). (comme dans l’espace colorimétrique CIE 1931 XYZ) que nous appellerons ici Ylinear pour éviter toute ambiguïté.

Pour convertir une couleur d’un espace colorimétrique basé sur un modèle RVB gamma compressé (non linéaire) en une représentation en niveaux de gris de sa luminance, la fonction de compression gamma doit d’abord être supprimée via l’expansion gamma (linéarisation) pour transformer l’image en RVB linéaire. espace de couleurs, de sorte que la somme pondérée appropriée puisse être appliquée aux composants de couleur linéaires  ) pour calculer la luminance linéaire Ylinéaire , qui peut ensuite être de nouveau compressée en gamma si le résultat en niveaux de gris doit également être codé et stocké dans un espace de couleurs non linéaire typique.

Pour l’espace colorimétrique sRGB commun, l’expansion gamma est définie comme


où C srgb représente l’une des trois primitives sRGB comprimées par gamma ( R srgb , G srgb et B srgb , chacune dans la plage [0,1]) et C linear est la valeur d’intensité linéaire correspondante ( R linear , G linear , et B linéaire , également dans l’intervalle [0,1]). Ensuite, la luminance linéaire est calculée comme une somme pondérée des trois valeurs d’intensité linéaire. L’espace colorimétrique sRGB est défini en termes de luminance linéaire Y linéaire CIE 1931, qui est donnée par


Ces trois coefficients particuliers représentent la perception d’intensité (luminance) des humains trichromatiques typiques à la lumière du Rec précis. 709 couleurs primaires additives (chromaticités) utilisées dans la définition de sRGB. La vision humaine étant la plus sensible au vert, elle a le plus grand coefficient (0,7152) et est la moins sensible au bleu. C’est donc le plus petit coefficient (0,0722). Pour coder l’intensité des niveaux de gris en RVB linéaire, chacun des trois composants de couleur peut être réglé pour être égal à la luminance linéaire calculée  (remplaçant  par les valeurs  pour obtenir cette échelle de gris linéaire), qui doit ensuite généralement être compressée en gamma pour revenir à une représentation non linéaire conventionnelle. Pour sRGB, chacune de ses trois primaires est alors définie sur le mêmeY srgb compressé en gamma donné par l’inverse de l’expansion gamma ci-dessus


Puisque les trois composants sRGB sont alors égaux, indiquant qu’il s’agit en fait d’une image grise (pas de couleur), il est seulement nécessaire de stocker ces valeurs une fois, et nous appelons cela l’image en niveaux de gris qui en résulte. C’est ainsi qu’il sera normalement stocké dans des formats d’image compatibles sRGB prenant en charge une représentation en niveaux de gris à un seul canal, telle que JPEG ou PNG. Les navigateurs Web et autres logiciels qui reconnaissent les images sRGB devraient produire le même rendu pour une telle image en niveaux de gris que pour une image sRGB « couleur » ayant les mêmes valeurs dans les trois canaux de couleur.

Codage Luma dans les systèmes vidéo
Pour les images dans les espaces colorimétriques tels que Y’UV et ses parentés, qui sont utilisés dans les systèmes TV et vidéo couleur standard tels que PAL, SECAM et NTSC, une composante luminal non linéaire (Y ‘) est calculée directement à partir d’intensités primaires compressées en tant que somme pondérée, qui, bien que n’étant pas une représentation parfaite de la luminance colorimétrique, peut être calculée plus rapidement sans l’expansion gamma et la compression utilisées dans les calculs photométriques / colorimétriques. Dans les modèles Y’UV et Y’IQ utilisés par PAL et NTSC, la composante rec601 luma (Y ‘) est calculée comme suit:


où nous utilisons le premier pour distinguer ces valeurs non linéaires des valeurs non linéaires sRGB (discutées ci-dessus) qui utilisent une formule de compression gamma quelque peu différente, et des composantes linéaires RVB. La norme ITU-R BT.709 utilisée pour la TVHD développée par l’ATSC utilise des coefficients de couleur différents, calculant le composant luma comme

 .
Bien que ce soient numériquement les mêmes coefficients utilisés dans sRGB ci-dessus, l’effet est différent car ici ils sont appliqués directement aux valeurs compressées gamma plutôt qu’aux valeurs linéarisées. La norme ITU-R BT.2100 pour la télévision HDR utilise des coefficients différents, calculant le composant luma

 .
Normalement, ces espaces de couleurs sont de nouveau transformés en R’G’B ‘non linéaires avant d’être affichés. Dans la mesure où il reste suffisamment de précision, ils peuvent être rendus avec précision.

Mais si la composante luma Y ‘elle-même est directement utilisée comme une représentation en niveaux de gris de l’image couleur, la luminance n’est pas conservée: deux couleurs peuvent avoir la même luminance Y  mais différentes luminances linéaires CIE Y(et donc différentes non linéaires Y srgb ci-dessus) et par conséquent apparaître plus sombre ou plus clair à un humain typique que la couleur originale. De même, deux couleurs ayant la même luminance Y (et donc la même Y srgb ) auront en général une luma différente selon l’une ou l’autre des définitions de Y ‘ luma ci-dessus.

Les images couleur sont souvent constituées de plusieurs canaux de couleur empilés, chacun représentant des niveaux de valeur du canal donné. Par exemple, les images RVB sont composées de trois canaux indépendants pour les composants de couleur primaire rouge, vert et bleu; Les images CMJN ont quatre canaux pour les plaques d’encre cyan, magenta, jaune et noire, etc.

Voici un exemple de découpage de canal de couleur d’une image couleur RVB complète. La colonne de gauche montre les canaux de couleur isolés dans des couleurs naturelles, alors qu’à droite il y a leurs équivalences en niveaux de gris:

L’inverse est également possible: pour construire une image en couleur à partir de leurs canaux distincts en niveaux de gris. En détournant les canaux, en utilisant des décalages, des rotations et d’autres manipulations, on peut obtenir des effets artistiques au lieu de reproduire fidèlement l’image originale.