Sull'udibilità dell'alta risoluzione

Messaggio

#1 Messaggio da **Interference** » 14/01/2025, 10:20

Da anni ci si interroga sulla necessità o meno di rendere le catene audio hi-fi in grado di riprodurre materiale ad alta risoluzione.

Nel campo digitale, con alta risoluzione ("alta" rispetto alla "qualità CD") ci si riferisce a due proprietà di una registrazione:
- profondità di bit superiori a 16 bit;
- uso di sample rate a 96 kHz o superiori (ci sarebbero anche i 48 kHz ma non trovano ampio uso in audio).

Nel mondo anlosassone, si parla di "high definition" che tradotto letteralmente sarebbe "alta definizione". Per qualche motivo da noi quest'ultima dicitura si è applicata al video, mentre si parla di "alta risoluzione" in campo audio.

In genere, le due cose vanno assieme: i formati più comuni sono 24 bit 96 kHz (in breve 24/96), 24/192, o quello che commercialmente è stato definito DXD: 24/352.8 o 32/352.8. In realtà i 32 bit sono "utili" solo a fini computazionali: sostanzialmente nessun sistema analogico raggiunge o supera la risoluzione equivalente a 24 bit.

Si può considerare alta risoluzione anche il DSD (SACD) che garantisce, convertito in analogico, una risoluzione superiore al CD. Forzando un pochino le definizioni, il DSD può essere visto come un formato a bassa profondità di bit (1) ma altissimo sample rate (2822.4 kHz). In realtà il DSD non è prodotto con il classico campionamento digitale e potrebbe essere fuorviante interpretarlo in termini di profondità di bit e sample rate. Ci insegna, in un certo senso, che entrambi i fattori contribuiscono all'accuratezza con cui un segnale a banda limitata può essere riprodotto. Prima o poi riprendo il discorso su PCM e DSD iniziato qui su un altro thread.

Si parlò molto di alta risoluzione quando Neil Young tentò di promuovere un player portatile (Pono) in grado di riprodurre audio non compresso ad alta risoluzione. All'epoca non c'erano ancora i servizi di streaming e spopolavano i lettori MP3, spesso "nutriti" con file compressi a basso bitrate, talvolta con codec datati o non ottimali. È vero quindi che la qualità media dell'audio riprodotto in mobilità risultasse insoddisfacente, mentre è discutibile che spingere i formati high-res fosse la soluzione al problema.

Chris "Monty" Mongomery, creatore di OGG Vorbis e parte della stessa fondazione dietro lo sviluppo di FLAC scrisse in risposta una nota argomentando che i file high-res fossero un'idea "very silly" (molto sciocca) e non realmente necessaria a riprodurre audio di qualità.

Si può discutere del fatto che l'alta risoluzione sia utile o meno, ma c'è anche una questione collegata e non totalmente sovrapponibile: l'alta risoluzione è distinguibile?

Diversi studi pubblicati sul JAES e altrove hanno tentato di rispondere alla domanda. Meyer e Moran (2007) sembrarono dimostrare che l'ascoltatore non è in grado di distinguere un segnale HD da lo stesso segnale passato per una conversione intermedia a qualità CD. Non entro nei dettagli, perché la metodologia di M&M è stata più volte criticata (legittimamente) e lo studio non si può considerare conclusivo.

Una meta-analisi (Reiss, 2016) ha tentato di combinare diversi studi, concludendo che esiste un effetto piccolo ma significativo di distinguibilità della riproduzione high-res da quella a risoluzione standard.

Con calma mi piacerebbe addentrarmi in questo studio.

Come prime note, rileviamo che:
- gli autori concludono che "la fedeltà di riproduzione percepita può essere influenzata da sistemi che operano al di là della risoluzione standard";
- gli autori rilevano che l'effetto è significativo per sample rate più elevati, mentre non sembra esserlo per la profondità di bit;
- nel riassumere il proprio lavoro, parlano di distinguibilità ma non vi attribuiscono un "segno", in altre parole non dicono se nei casi in cui è distinguibile, l'alta risoluzione risulti "più fedele";
- a leggere la metodologia, sembra che gli autori invece considerino il "segno", ovvero valutino se l'alta risoluzione sia effettivamente percepita come più fedele o migliore.

La metodologia dello studio sembra ragionevole, l'esposizione invece non è delle migliori.

Penso sia interessante andare a vedere quali sono gli studi "primari" che contribuiscono di più al risultato e analizzarli più a fondo per capire in quali termini si manifesta questa distinguibilità.

#2 Messaggio da **Interference** » 14/01/2025, 21:12

La meta analisi di Reiss combina diversi studi in cui un panel di ascoltatori ha valutato riproduzioni a risoluzione differente. Sul totale delle prove effettuate negli studi, i soggetti attribuiscono una maggiore qualità all'audio high-res nel 53.3% dei casi (se i soggetti tirassero a caso, la probabilità sarebbe del 50%). L'effetto è "piccolo" ma "statisticamente significativo".

Il training dei soggetti aumenta, in media, la percentuale di identificazioni "corrette".

Gli studi di partenza sono strutturati in maniera diversa tra loro (rispondono a domande diverse) ma per essere confrontati vengono ricondotti ad uno schema per cui ciascuna "prova" (trial) ha esito positivo o meno. Questa parte è particolarmente interessante:
- nel caso di un test AXY si chiede al soggetto di confrontare due stimoli ignoti (X e Y) con uno stimolo di riferimento (A), il trial si considera un "successo" se il soggetto associa correttamente ad A il campione corrispondente tra X e Y. X e Y possono essere due stimoli a 44 e 96 kHz, rispettivamente (Yoshikawa, 1995)
- in un caso (King, 2012), ai soggetti è stato chiesto di classificare la qualità audio di quattro stimoli: suono "live" (1), riproduzione a 44.1, 96 e 192 kHz (2, 3, 4); qui il trial si considera con esito positivo nel caso in cui lo stimolo a 192 kHz sia classificato più vicino al suono "live" rispetto allo stimolo a 44.1. Reiss non specifica molto altro. Si desume che gli esiti con stimolo a 96k non sono considerati. Sarà interessante vedere come lo studio originale era stato strutturato.
- in un caso (Repp, 2006), ai soggetti è stato chiesto di valutare la qualità della riproduzione di stimoli a 16/44.1 e 24/96. Si considera esito positivo se lo stimolo hi-res è valutato migliore di quello a risoluzione standard, negativo se avviene il contrario. Sono rimossi i risultati in cui i due sono valutati come indistinguibili. Questo è interessante perché si considerano solo i casi in cui il soggetto risporta una differenza.

La combinazione avviene in due modi:
- (1) si calcola, per ciascuno studio, la frazione di esiti positivi e la probabilità che, in assenza di un effetto reale, questa possa dovuta al "caso" (p value). Si fa una somma pesata e si combinano le probabilità.
- (2) si mettono tutti i trial in un'unica popolazione, e si calcola la media complessiva con il relativo p-value.

Notare, cosa non ovvia, che per alcuni la media di prove con esito positivo per ciascun partecipante (Fig. 2) differisce dalla media di prove con esito positivo sul totale (Tab. 2, colonna C). Se gli studi in origine prevedevano lo stesso numero di trial per partecipante, la meta-analisi non sempre li considera tutti (ogni partecipante contribuisce con un numero diverso di prove selezionate al risultato finale).

#3 Messaggio da **Interference** » 15/01/2025, 9:54

Il senso di una meta-analisi è quello di combinare diversi studi (limitati, per forza di cose, nel numero di prove e soggetti) aumentandone il potere statistico.

Una delle conseguenze è che anche effetti osservati piccoli, non significativi sullo studio singolo, possono diventare significativi quando considerati nell'insieme.

Resta interessante però andare a prendere individualmente gli studi che, da soli, hanno i risultati più significativi.

Uno dei paper citati (Jackson, 2016), quello con il peso maggiore tra gli studi con soggetti "trained" è riportato come "under review" non è mai stato pubblicato dall'AES. È uno studio effettuato da Meridian e co-autorato da Bob Stuart.

Degli stessi autori c'è uno studio precedente:
- H. M. Jackson, et al., “The Audibility of Typical Digital Audio Filters in a High-Fidelity Playback System,” presented at the 137th Convention of the Audio Engineering Society (2014 Oct.), convention paper 9174.

Purtroppo non è open access e non si riesce a reperire online.

Il forum AES contiene alcuni commenti critici da parte di Stefan Heinzmann e Arnold Krueger (considerato il padre spirituale dei test ABX, ora non più tra noi): https://secure.aes.org/forum/pubs/conve ... D=416#2927

Sempre da parte di Arnold, questo thread su Hydrogen Audio: https://hydrogenaud.io/index.php/topic,108467.0.html

La meta analisi di Reiss cita questo il paper di Meridian anche in relazione al presunto "carico cognitivo" dei test ABX, anche questo è discusso da Krueger nel thread sopra.

#4 Messaggio da **MarioBon** » 15/01/2025, 12:57

Entro nell'argomento con delle considerazioni "aritmetiche" che riguardano solo il numero di bit impiegati nella conversione.

Premessa:
La dinamica teorica massima di un programma musicale convertito a 16 bit è 96 dB
La dinamica teorica massima di un programma musicale convertito a 24 bit è 96+48 dB
il rumore ambientale (casuale) presente nella registrazione maschera l'errore di quantizzazione.
il fattore di cresta della musica pop rock e disco va da 3 a 5 (prevalenteemente 3 e raramente oltre 5)
il fattore di cresta della musica classica va da 5 a oltre 10 (raramente oltre 20, il 5 si riferisce alla musica per organo)
[fine Premessa]

il rumore in una sala da concerto o teatro vale circa 20 dB, quindi dei 96 dB disponibili ne restano 76 che potrebbero non essere sufficienti per riprodurre la dinamica della grande orchestra (Requiem di Verdi). Si può porre rimedio applicando un po' di compressione. Questa compresione non è percepita necessariamente come un difetto (per info chiedere agli amanti dei monotriodi non retroazionati).

il rumore durante un concerto rock è alto (viferse decine di dB) mentre la dinamica della musica è inferiore (proprio perchè il rumore è alto) quindi i 96 dB disponibili a 16 bit sono sufficienti. Il rumore copre abbondantemente l'errore di quantizzazione.

Ne segue che, solo considerando la dimanica dei brani musicali da riprodurre, i 16 bit sono sufficienti per la musica pop rock.
Per la musica classica (sinfonica in particolare) la dinamica dei 16 bit senza compressione non bastano e si passa a 24 bit.

Anche se su questo aspetto non c'è molto da discutere resta la soggettività del giudizio in particolare la compressione non è necessariamente un difetto e nessuno può negare che una registrazione a 16 bit (fatta bene) sia preferibile ad una a 24 (fatta male).

Per quanto mi riguarda le migliori registrazioni che ho sentito sono delle DSD "native" fornite da Marco Cicogna: sembrava di aver cambiato le casse con due molto migliori.

Ci sono altri due aspetti:
- la banda passante (che dovrebbe essere estesa a 22000 Hz)
- le rotazioni di fase introdotte dai filtri anti alias e di ricostruzione.

Gli effetti di questi aspetti sono più facilmente superati (o qttenuati) aumentando la frequenza di campionamento.

La mia conclusione, senza fare nessun test di ascolto, è che il formato 24bit/96kHz è il più adatto.
Si sente la differenza con il formato 16bit/44.1kHz? con certi brani si e con altri no ma il motivo non è intrinseco nel numero di bit.
Il perchè è spiegato sopra.

#5 Messaggio da **Interference** » 15/01/2025, 13:25

Riguardo lo studio citato nel post precedente, in Jackson, 2014 gli autori intendevano verificare l'udibilità di diversi filtri digitali applicati ad uno stimolo. Come detto, il PDF non è reperibile online ma si può desumere qualcosa sulla metodologia dai commenti.

Riguardo il sistema di riproduzione: lo studio ha usato un processore audio Meridian 818v2 collegato ad un sistema di altoparlanti attivo Meridian DSP7200SE dichiarati con estensione in frequenza fino a 32 kHz (tweeter in berillio). Il sistema accetta segnali fino a 96 kHz.

Riguardo il metodo, gli autori hanno preso registrazioni a 192 kHz e hanno applicato ad essi filtraggi digitali considerati a loro discrezione rappresentativi di scenari "tipici" nella produzione e riproduzione musicale. Tra i "filtri" sono inclusi quelli che simulano la riduzione della risoluzione e della frequenza di campionamento e diversi tipi di dither.

Le principali critiche al metodo si possono riassumere così: i "filtri" scelti dagli autori non sarebbero rappresentativi degli scenari tipici, ma rifletterebbero casi limite che non trovano riscontro nella pratica comune della (ri)produzione audio, e rappresenterebbero "cattive pratiche" che gli audio engineer dovrebbero evitare (Krueger).

In particolare gli autori hanno scelto filtri con banda di transizione estremamente stretta (500 Hz), scenario che nella realtà tipicamenete non si riscontra.

Mia interpretazione: lo studio, in sintesi, non verifica i limiti del "formato CD" dimostrando inequivocabilmente che l'hi-res migliora le cose. Testa i limiti degli specifici filtri scelti dagli autori per simulare la riduzione da 24/192 al formato CD. La conclusione potrebbe essere che l'alta risoluzione è distinguibile quando la "riduzione a qualità CD" è fatta male.

#6 Messaggio da **Interference** » 15/01/2025, 15:53

MarioBon ha scritto: 15/01/2025, 12:57 Per quanto mi riguarda le migliori registrazioni che ho sentito sono delle DSD "native" fornite da Marco Cicogna: sembrava di aver cambiato le casse con due molto migliori.

In questi casi non è facile stabilire se la registrazione "migliore" sia merito del processo o del formato. Qualcuno faceva notare che registrare "nativamente" in DSD limita il margine di manovra in fase di missaggio-mastering e quindi richiede che le cose siano fatte bene fin dall'inizio. Non so cosa significhi "nativo" nel caso specifico.

La mia conclusione, senza fare nessun test di ascolto, è che il formato 24bit/96kHz è il più adatto.
Si sente la differenza con il formato 16bit/44.1kHz? con certi brani si e con altri no ma il motivo non è intrinseco nel numero di bit.
Il perchè è spiegato sopra.

Fondamentalmente concordo e, oggi non ci sarebbero problemi a distribuire/riprodurre materiale a 24/96 come nuovo standard. Penso però che molti tentativi di proporre l'alta risoluzione da parte dell'industria abbiano storicamente seguito esigenze più commerciali che tecniche, dal SACD a MQA.

#7 Messaggio da **kalos** » 15/01/2025, 15:54

Avevo a suo tempo trovato un documento che metteva in evidenza anche la presenza di effetti negativi dell'alta risoluzione.
Ne riporto rapidamente una sintesi.
Per esempio la distorsione per intermodulazione IMD.
Per fare un esempio, se la risposta in frequenza è estesa oltre i 20 kHz, la registrazione può contenere componenti a 24 e 26 kHz.
Buona parte dei tweeters forzati alla riproduzione su frequenze dove non sono stati progettati per operare producono distorsione IMD a frequenze che sono la somma e la sottrazione delle due componenti.
Sfortunatamente la sottrazione delle due, in questo esempio, ricade a 2 kHz in piena banda audio.
Nel 2001 un documento intitolato "Detection of Threshold for Tones Above 22 kHz" edito dal Japan’s National Institute of Advanced Industrial Science and Technology ha dimostrato che il segnale riprodotto per IMD a 2 kHz era udibile nei diffusori da loro utilizzati.
Veniva inoltre messa in evidenza una potenziale riduzione della durata dei tweeters.
Al superamento di determinate frequenze ultrasoniche (dipendenti dal driver in oggetto) le cupole dei tweeters escono dal loro funzionamento lineare
Queste non linearità sono dovute alla deformazione della membrana che viene ad assumere forme diverse da quella originale.
Onde stazionarie nella membrana del tweeter.
Il ripetersi di queste deformazioni (secondo modelli ricorrenti) potrebbe facilmente deteriorare la resistenza/rigidità della cupola, oltre a causare distorsione e potenziali danni al driver.

#8 Messaggio da **MarioBon** » 15/01/2025, 16:17

Interference ha scritto: 15/01/2025, 13:25 ....
La conclusione potrebbe essere che l'alta risoluzione è distinguibile quando la "riduzione a qualità CD" è fatta male.

Ma, secondo te, servivano articoli su articoli per arrivare a queste conclusioni (che tutto sommato coincidono con le mie)?

#9 Messaggio da **Coltr@ne** » 15/01/2025, 20:28

Mario Bon ha scritto:Per quanto mi riguarda le migliori registrazioni che ho sentito sono delle DSD "native" fornite da Marco Cicogna: sembrava di aver cambiato le casse con due molto migliori.

Scusami ma non ho capito, erano meglio perché fatte meglio, o ritieni il DSD nativo superiore?

#10 Messaggio da **Interference** » 15/01/2025, 22:57

MarioBon ha scritto: 15/01/2025, 16:17
Interference ha scritto: 15/01/2025, 13:25 ....
La conclusione potrebbe essere che l'alta risoluzione è distinguibile quando la "riduzione a qualità CD" è fatta male.
Ma, secondo te, servivano articoli su articoli per arrivare a queste conclusioni (che tutto sommato coincidono con le mie)?

Se in hi-fi bastasse il buonsenso...

Il fatto è che la conclusione "ragionevole" che ho proposto (basandomi sui commenti al lavoro) è diversa e meno sensazionale di quella che gli autori volevano spingere.

Però la domanda di fondo è interessante: è utile catturare e riprodurre le frequenze al di sopra dei 22 kHz o i sample rate maggiori sono benefici solo perché comportano una miglior rappresentazione della banda udibile?

L'industria sul tema è intellettualmente onesta e dimostra integrità scientifica oppure...?

Audio_Italia

Audio_Italia

Sull'udibilità dell'alta risoluzione

Sull'udibilità dell'alta risoluzione

Re: Sull'udibilità dell'alta risoluzione

Re: Sull'udibilità dell'alta risoluzione

Re: Sull'udibilità dell'alta risoluzione

Re: Sull'udibilità dell'alta risoluzione

Re: Sull'udibilità dell'alta risoluzione

Re: Sull'udibilità dell'alta risoluzione

Re: Sull'udibilità dell'alta risoluzione

Re: Sull'udibilità dell'alta risoluzione

Re: Sull'udibilità dell'alta risoluzione

Chi c’è in linea