Scala di grigi

Nella fotografia, nell’elaborazione e nella colorimetria, un’immagine in scala di grigi o in scala di grigi è quella in cui il valore di ciascun pixel è un singolo campione che rappresenta solo una quantità di luce, cioè, contiene solo informazioni sull’intensità. Immagini di questo tipo, note anche come bianco e nero o monocromatiche, sono composte esclusivamente da sfumature di grigio, che variano dal nero all’intensità più debole al bianco al più forte.
Le immagini in scala di grigi si distinguono dalle immagini bitonali bi-tonali bit-bit, che nel contesto dell’imaging per computer sono immagini con due soli colori, il bianco e nero (chiamato anche bilevel o immagini binarie). Le immagini in scala di grigi hanno molte sfumature di grigio intermedie.

Le immagini in scala di grigi possono essere il risultato della misurazione dell’intensità della luce a ciascun pixel in base a una particolare combinazione ponderata di frequenze (o lunghezze d’onda), e in tali casi sono monocromatiche appropriate quando solo una singola frequenza (in pratica, una banda stretta di frequenze ) viene catturato. Le frequenze possono essere in linea di principio dovunque nello spettro elettromagnetico (es. Infrarossi, luce visibile, ultravioletto, ecc.).

Un’immagine in scala di grigio colorimetrica (o più specificatamente fotometrica) è un’immagine con uno spazio cromatico in scala di grigi definito, che associa i valori numerici di campioni memorizzati al canale acromatico di uno spazio colore standard, che a sua volta si basa sulle proprietà misurate della visione umana.

Se l’immagine a colori originale non ha uno spazio cromatico definito, o se l’immagine in scala di grigi non è concepita per avere la stessa intensità acromatica percepita dall’uomo come l’immagine a colori, non esiste una mappatura univoca da un’immagine a colori simile a un’immagine in scala di grigi.

Rappresentazioni numeriche
L’intensità di un pixel è espressa in un determinato intervallo tra un minimo e un massimo, inclusi.Questo intervallo è rappresentato in modo astratto come un intervallo compreso tra 0 (o 0%) (assenza totale, nero) e 1 (o 100%) (presenza totale, bianco), con valori frazionari intermedi. Questa notazione è usata in articoli accademici, ma questo non definisce cosa sia “nero” o “bianco” in termini di colorimetria. A volte la scala viene invertita, come nella stampa in cui l’intensità numerica indica la quantità di inchiostro utilizzata nei mezzitoni, con lo 0% che rappresenta la carta bianca (senza inchiostro) e il 100% è un nero pieno (inchiostro pieno).

Nel calcolo, sebbene la scala di grigi possa essere calcolata attraverso numeri razionali, i pixel dell’immagine sono generalmente quantizzati per memorizzarli come interi non firmati, per ridurre la memoria e il calcolo richiesti. Alcuni dei primi monitor in scala di grigi possono visualizzare solo fino a sedici diverse tonalità, che verrebbero archiviate in formato binario usando 4 bit. Ma oggi le immagini in scala di grigi (come le fotografie) destinate al display (sia sullo schermo che stampate) vengono comunemente memorizzate con 8 bit per pixel campionati. Questa profondità di pixel consente di registrare 256 diverse intensità (ad es. Sfumature di grigio) e semplifica anche il calcolo, dato che ogni campione di pixel può essere consultato singolarmente come un intero byte. Tuttavia, se queste intensità fossero equamente spaziate in proporzione alla quantità di luce fisica che rappresentano a quel pixel (chiamata codifica o scala lineare), le differenze tra le ombre scure adiacenti potrebbero essere piuttosto evidenti come artefatti di banding, mentre molte delle tonalità più chiare sarebbe “sprecato” codificando molti incrementi percettivamente indistinguibili. Pertanto, le sfumature sono invece tipicamente distribuite uniformemente su una scala non lineare gamma-compresso, che meglio approssima gli incrementi percettivi uniformi per entrambe le tonalità scure e chiare, di solito rendendo queste 256 sfumature sufficienti (appena a malapena) per evitare incrementi evidenti.
Gli usi tecnici (ad esempio nelle applicazioni di imaging medico o telerilevamento) spesso richiedono più livelli, per sfruttare appieno l’accuratezza del sensore (in genere 10 o 12 bit per campione) e per ridurre gli errori di arrotondamento nei calcoli. Sedici bit per campione (65.536 livelli) sono spesso una scelta conveniente per tali usi, poiché i computer gestiscono le parole a 16 bit in modo efficiente.I formati di file immagine TIFF e PNG (tra gli altri) supportano la scala di grigi a 16 bit in modo nativo, sebbene i browser e molti programmi di imaging tendano a ignorare gli 8 bit di ogni pixel di ordine basso. Internamente per il calcolo e l’archiviazione di lavoro, il software di elaborazione delle immagini utilizza in genere numeri interi o in virgola mobile di dimensione 16 o 32 bit.

Conversione del colore in scala di grigi
La conversione di un’immagine a colori arbitraria in scala di grigi non è univoca in generale; una diversa ponderazione dei canali colore rappresenta in effetti l’effetto della ripresa di film in bianco e nero con filtri fotografici di diverso colore sulle fotocamere.
Conversione colorimetrica (mantenimento della luminanza percettiva) in scala di grigi
Una strategia comune consiste nell’utilizzare i principi della fotometria o, più in generale, la colorimetria per calcolare i valori della scala di grigi (nello spazio cromatico della scala dei grigi target) in modo da avere la stessa luminanza (luminanza tecnicamente relativa) dell’immagine a colori originale (in base al suo spazio cromatico) . Oltre alla stessa luminanza (relativa), questo metodo assicura anche che entrambe le immagini abbiano la stessa luminanza assoluta quando visualizzate, come può essere misurata dagli strumenti nelle sue SIunits di candele per metro quadrato, in qualsiasi area data dell’immagine, data uguali punti di bianco. La luminanza stessa viene definita utilizzando un modello standard di visione umana, quindi preservare la luminanza nell’immagine in scala di grigi persegue anche altre misure di leggerezza percettiva, come L * (come nello spazio colore CIE L ab del 1976) che è determinato dalla luminanza lineare Y stesso (come nello spazio colore XYZ CIE 1931) a cui ci riferiremo qui come Y lineare per evitare qualsiasi ambiguità.

Conversione colorimetrica (mantenimento della luminanza percettiva) in scala di grigi
Una strategia comune consiste nell’utilizzare i principi della fotometria o, più in generale, la colorimetria per calcolare i valori della scala di grigi (nello spazio cromatico della scala dei grigi target) in modo da avere la stessa luminanza (luminanza tecnicamente relativa) dell’immagine a colori originale (in base al suo spazio cromatico ). Oltre alla stessa luminanza (relativa), questo metodo garantisce anche che entrambe le immagini abbiano la stessa luminanza assoluta quando visualizzate, come può essere misurata dagli strumenti nelle sue unità SI di candele per metro quadrato, in una data area dell’immagine, dati pari punti. La luminanza stessa viene definita utilizzando un modello standard di visione umana, quindi preservare la luminanza nell’immagine in scala di grigi persegue anche altre misure di leggerezza percettiva, come L * (come nello spazio colore CIE Lab del 1976) che è determinato dalla luminanza lineare Y stessa (come nello spazio colore XYZ CIE 1931) a cui ci riferiremo qui come Ylinear per evitare qualsiasi ambiguità.

Per convertire un colore da uno spazio cromatico basato su un tipico modello di colore RGB (non lineare) compresso a gamma per una rappresentazione in scala di grigi della sua luminanza, la funzione di compressione gamma deve prima essere rimossa tramite espansione gamma (linearizzazione) per trasformare l’immagine in un RGB lineare spazio colore, in modo che la somma ponderata appropriata possa essere applicata alle componenti di colore lineare  ) per calcolare la luminanza lineare Y lineare , che può quindi essere nuovamente sottoposta a compressione gamma se il risultato della scala di grigi deve anche essere codificato e memorizzato in un tipico spazio colore non lineare.

Per lo spazio colore sRGB comune, l’espansione gamma è definita come


dove C srgb rappresenta uno dei tre primari sRGB compressi gamma ( R srgb , G srgb e B srgb , ciascuno nel range [0,1]) e C linear è il valore corrispondente dell’intensità lineare ( R linear , G linear , eB lineare , anche nel range [0,1]). Quindi, la luminanza lineare viene calcolata come somma ponderata dei tre valori di intensità lineare. Lo spazio colore sRGB è definito in termini di luminanzalineare CIE 1931 Y , che è data da

Questi tre coefficienti specifici rappresentano la percezione dell’intensità (luminanza) tipica degli esseri umani tricromatici alla luce dell’esatta rec. 709 colori primari additivi (cromatiche) utilizzati nella definizione di sRGB. La visione umana è più sensibile al verde, quindi questo ha il più grande valore di coefficiente (0,7152) e meno sensibile al blu, quindi questo ha il coefficiente più piccolo (0,0722). Per codificare l’intensità della scala di grigi in RGB lineare, ciascuna delle tre componenti del colore può essere impostata per eguagliare la luminanza lineare calcolata (sostituzione  dai valori  per ottenere questa scala di grigi lineare), che in genere deve essere compresso in gamma per tornare a una rappresentazione non lineare convenzionale. Per sRGB, ognuno dei suoi tre primari viene quindi impostato sullo stesso Y srgb compresso dalla gamma dato dall’inverso dell’espansione gamma sopra come


Poiché i tre componenti sRGB sono quindi uguali, a indicare che si tratta di un’immagine grigia (non di colore), è necessario archiviare questi valori una volta sola e la chiamiamo immagine in scala di grigi risultante. Questo è il modo in cui verrà normalmente memorizzato in formati di immagine compatibili con sRGB che supportano una rappresentazione in scala di grigi a canale singolo, come JPEG o PNG. I browser Web e altri software che riconoscono le immagini sRGB dovrebbero produrre lo stesso rendering per un’immagine in scala di grigi come per un’immagine sRGB “a colori” con gli stessi valori in tutti e tre i canali di colore.

Codifica di Luma nei sistemi video
Per immagini in spazi colore come Y’UV e relativi parenti, che vengono utilizzati in TV a colori standard e sistemi video come PAL, SECAM e NTSC, un componente luma non lineare (Y ‘) viene calcolato direttamente dalle intensità primarie compresse gamma come somma ponderata, che, sebbene non sia una rappresentazione perfetta della luminanza colorimetrica, può essere calcolata più rapidamente senza l’espansione gamma e la compressione utilizzate nei calcoli fotometrici / colorimetrici. Nei modelli Y’UV e Y’IQ utilizzati da PAL e NTSC, il componente rec601 luma (Y ‘) viene calcolato come

dove usiamo il primo per distinguere questi valori non lineari dai valori non lineari sRGB (discussi sopra) che usano una formula di compressione gamma leggermente diversa, e dai componenti lineari RGB. Lo standard ITU-R BT.709 utilizzato per l’HDTV sviluppato dall’ATSC utilizza diversi coefficienti di colore, calcolando il componente luma come
 .

Sebbene questi siano numericamente gli stessi coefficienti usati in sRGB sopra, l’effetto è diverso perché qui vengono applicati direttamente ai valori compressi gamma piuttosto che ai valori linearizzati. Lo standard ITU-R BT.2100 per la televisione HDR utilizza ancora diversi coefficienti, calcolando il componente luma come
 .
Normalmente questi spazi colorimetrici vengono trasformati in R’G’B ‘non lineare prima del rendering per la visualizzazione. Nella misura in cui rimane una precisione sufficiente, possono essere resi in modo accurato.

Ma se il componente luma Y ‘viene invece usato direttamente come una rappresentazione in scala di grigi dell’immagine a colori, la luminanza non viene preservata: due colori possono avere lo stesso luma Y’ ma diversa luminanza lineare CIE Y (e quindi differente Y srgb non lineare come definito sopra) e quindi appaiono più scuri o più chiari a un tipico umano rispetto al colore originale. Allo stesso modo, due colori con la stessa luminanza Y (e quindi lo stesso Y srgb ) avranno in generale un luma diverso da una delle definizioni Y ‘ luma di cui sopra.

Le immagini a colori sono spesso costituite da diversi canali di colore sovrapposti, ognuno dei quali rappresenta i livelli di valore del canale specificato. Ad esempio, le immagini RGB sono composte da tre canali indipendenti per le componenti di colore primario rosso, verde e blu; Le immagini CMYK hanno quattro canali per lastre di inchiostro ciano, magenta, giallo e nero, ecc.

Ecco un esempio di divisione dei canali colore di un’immagine a colori RGB completa. La colonna a sinistra mostra i canali di colore isolati in colori naturali, mentre a destra ci sono le loro equivalenze in scala di grigi:

È anche possibile il contrario: per costruire un’immagine a colori dai loro canali separati in scala di grigi. Staccando i canali, usando offset, rotazioni e altre manipolazioni, è possibile ottenere effetti artistici invece di riprodurre accuratamente l’immagine originale.