Entro nella polemuca tra Dindy e Tom per cercare di mettere un po' d'ordine. M sono letto questo papiro che non è proprio una lettura rilassante:
http://www.robertwannamaker.com/writings/rw_phd.pdf si tratta della tesi di Wannamaker.
Va riconosciuto a Wannamaker di non commettere l'errore di considerare l'errore di quantizzazione con correlato al segnale. Errore di quantizzazione e segnale sono sempre correlati. Quando il segnale è complicato questa correlazione è meno evidente e fa comodo pensare che non ci sia. Questa semplificazione consente di calcolare la potenza del segnale di errore in modo semplice.
La questione è: il dither serve sempre?
Riassumo la questione per comodità di tutti.
L'errore di quantizzazione impropriamente detto "rumore di quantizzazione" è la differenza tra il segnale "vero" prima della conversione A/D) ed il segnale convertito (che esce dall'A/D.
Consideriamo un segnale sinusoidale. La massima variazione dell'ampiezza del segnale avviene nell'intorno del passaggio per lo zero che avvine a frequenza doppia rispetto alla frequenza del segnale. Consideriamo un caso puramente teorico in cui, ad ogni passaggio per lo zero, l'errore di quantizzazione sia LSB/2 (metà del passo di quantizzazione) e nullo in ogni altro istante. In questo particolare caso, la periodicità dell'errore di quantizzazione genera quella che comunemente chiamiamo "distorsione di seconda armonica". Se osserviamo lo spettro del segnale convertito rileviamo una riga corrispondete alla frequenza della sinusoide e una riga corrispondente alla sua seconda armonica. Nella realtà si osservano anche molte altre righe.
Lo spettro dell'errore di quantizzazione contiene delle righe spettrali definite che l'ascoltatore percepisce come distorsione (con perdita di Chiarezza/intelligibilità).
Lo scopo del dithering è recuperare Chiarezza/intelligibilità eliminando dall'errore di quantizzazione le righe spettrali definite (udibili). Non potende eliminare l'errore di quantizzazione si cerca di renderlo meno influente sommando al segnale utile un rumore (il dither) per "distruggere" le periodicità presenti nell'errore di quantizzazione. Il prezzo da pagare è un peggioramento del rapporto segnale/rumore complessivo. Queste "righe definite" sono paricolarmente intense quando i segnali da converire sono "piccoli" e spettralmente semplici. L'ampiezza di queste righe dipende dall'ampiezza del segnale in relazione allo LSB (il passo di quantizzazione, o minimo incremento, del convertitore A/D). Dato che il segnale da convertire non è in generale stazionario, la presenza delle righe definite va collegata, più che all'ampiezza dei singoli campioni, alla probabilità che i campioni assumano determinate ampiezze. Questo spiega perchè Wannamaker chiami in causa i momenti (media, varianza, ecc.) e altre quantità poco familiari.
Per eliminare le righe si cercano le condizioni affinchè l'errore di quantizzazione presenti lo spettro di un rumore casuale (rumore bianco).
Infatti il cervello, non potendo associare informazioni al rumore, tende, per quanto possibile, a trascurarlo. I dither, quindi, non prescinde dalle proprietà dell'apparato uditivo. Il rumore bianco è anche molto "comodo" da trattare matematicamente.
Lo scopo della tesi è ottenere le condizioni affinchè il rumore di quantizzazione sia un rumore bianco. Questo ci fornisce il criterio per capire se il dither ha avuto successo o meno: l'operazione ha avuto successo se lo spettro dell'errore di quantizzazione è bianco e la sua autocorrelazione è nulla (si vedano le figure pag 62 e 86 della tesi linkata). Quindi non è necessario misurare i momenti o le pdf o altro: basta considerare lo spettro dell'errore di quantizzazione come del resto fa lo stesso Wannamaker. La autocorrelazione di valuta anche "a orecchio" (dal tipico suono prodotto da un rumore casuale). Da questo punto di vista Tom non ha sbagliato a presentae gli spettri dei segnali.
A detta di Wannamaker la trattazione è indipendente dal tipo di segnale da convertire e gli credo sulla parola (anche se il teorma 4.2 a pag 45 mi lascia un dubbio).
La trattazione in sostanza dimostra che, scegliendo opportunamente il segnale di dither, lo spettro dell'errore di quantizzazione viene reso bianco (non contiene righe "definite"). Il dither scelto è una sequenza telegrafica casuale e questo ha una conseguenza:
se il segnale da convertire è, a sua volta, una sequenza telegrafica causale non c'è bisogno di dither (è già ditherizzato di suo). Si può dire che questo "è ovvio". A prescindere dal fatto che "nulla è ovvio", la trattazione (teorica) è indipendente dal segnale convertito quindi autorizza a considerare qualsiasi segnale compresa la sequenza telegrafica. Del resto nulla vieta di inserire, in una composizione musicale, segnali o rumori di qualsiasi tipo.
Abbiamo così indiviaduato almeno un caso in cui il dither non serve senza escludere che ve ne possano essere altri. Ne segue che il dither, anche in teoria, non è sempre necessario.
Se poi dovessimo applicare un criterio di udibilità potremmo affermare che, quando il segnale da convertire è abbastanza ampio, l'errore di quantizzazione non è udibile (e quindi il dither è inutile). Dutante lo svolgimento di un brano musicale, durante i pianissimo il dither potrebbe essere necessario, durante i fortissiomo non lo è. Questo significa che il dither non deve essere necessariamente un segnale stazionario (ma un dither non stazionario renderebbe praticamente impossibile una trattazione matematica). Nella figura che segue il ditheri potrebbe essere applicato solo nelle parti più silenziose.
Se il dither non è sempre necessario si può ragionare sui casi in cui lo diventa e questo porta a considerare le caratteristiche del segnale musicale:
- in generale è la sovrapposizione di musica, canto, disturbi e rumore.
- in generale non è stazionario (ma può esserlo)
- possiede media nulla (comincia e finisce nel silenzio)
- fattore di cresta compreso tra circa 3 e circa 30
- per strumenti singoli suonati in camera anecoica il fattore di cresta può superare 45.
- lo spettro è più simile al rumore rosa che al rumore bianco
- l'altocorrelazione presenta diversi picchi la cui larghezza nel tempo può estendersi anche minuti
Fa eccezione, per certi aspetti, la musica elettronica dove i disturbi sono banditi ed il livello di rumore può essere non udibile e il fattore di cresta molto elevato.
La distinzione tra disturbo e rumore non è banale: il rumore è un segnale causale a media nulla, con valore RMS diverso da zero e autocorrelazione "molto breve". In genere la distribuzione delle ampiezza è gaussiana ma non ci sono limiti particolare all'andamento dello spettro. La presenza del rumore nel segnale musicale, specie se la sua statistica è simile al dither, rende il dither stesso da meno utile a inutile.
Questa incertezza porta ad applicare il dither di default anche in considerazione del fatto che il peggioramento del rapporto S/N è piccolo.
Va ribadito che la trattazione matematica del dither deve essere condotta in un certo modo e con determinati strumenti sia per conservare un carattere generale sia per consentire di portare a termine il calcolo. Nella pratica, come sempre, è opportuno tenere conto delle effettive condizioni d'uso.
Spero di aver chiarito.