di Simone Corelli

La somma di segnali audio in un mixer digitale presenta ovviamente il rischio di superare il massimo valore codificabile, incorrendo quindi in ciò che in gergo tecnico si dice “clipping”. Il problema è analizzato e risolto in generale, e inoltre applicandolo al caso pratico del downmixing da formato 5+1 a mono o stereo. Conseguentemente si discute poi di headroom nei mixer digitali, facendo riferimento soprattutto ai sistemi Pro Tools, sempre più diffusi anche nel mondo del cinema. L’articolo deriva da appunti composti dallo scrivente ad uso degli studenti fonici dell’Istituto Roberto Rossellini di Roma.

DOWNMIX E LIVELLI

Da 5.1 a mono 

Apparentemente la riduzione di un mix cinematografico 5.1 ad una traccia mono  (o stereo), nel dominio digitale PCM, sembrerebbe un’operazione semplice.
Tuttavia si osservi che la somma di sei segnali, che di solito sfruttano l’intero  range di valori d’ampiezza codificabili, facilmente supererà in svariati punti il  massimo valore consentito. Se poi consideriamo che la traccia dedicata agli  effetti a bassa frequenza, ossia l’LFE, è destinata ad un sistema che a parità di  stimolo in quella banda suona 10 dB più forte dei diffusori frontali full-range  L, C, R, allora è davvero il caso di preoccuparsi: quasi certamente la semplice  somma dei 6 segnali ci porterà a superare il massimo livello consentito. Di  quanto?
Consideriamo il caso peggiore, in cui tutte e sei le tracce contengano il massimo valore (positivo o negativo), che possiamo indicare con 1, oppure equivalentemente con 100% ; e dobbiamo anche amplificare di 10 dB l’LFE. Quindi il  100% dell’LFE che valore assume in realtà? Visto che il rapporto r espresso in  decibel vale per definizione: deriva che

e quindi, in questo caso, avremo che Per eccesso consideriamo che questo rapporto invece di circa 3.16 valga 3.17 ossia 317% per il solo canale LFE.

Deriva che la somma dei 5+1 segnali può valere, nel caso più sfortunato, ben l’817% del massimo valore codificabile.

Tuttavia il calcolo non è del tutto corretto dato che i diffusori surround nel 5.1 cinematografico sono attenuati di 3 dB in riproduzione rispetto ai tre frontali retroschermo ed inoltre nel downmix verso un formato non dotato di surround si tende ad attenuarli ulteriormente, di solito di 6 dB, per ridurre i rischi di interferenza (phasing in particolare) su materiale narrativamente non indispensabile, meno importante di quello posto sul fronte ovvero dove l’immagine è posta a raccontare. Dunque fissiamo a 9 dB l’attenuazione di tali due tracce, che scenderanno insieme da un contributo del 200% ad uno del 71% circa. La somma percentuale risulta quindi 300+71+317 = 688, ossia 16.8 dB circa, sopra lo zero digitale, il soffitto che non possiamo e non dobbiamo superare.

A questo punto le vie per evitare il clipping sono due:
1. Si attenua la somma di almeno 16.8 dB, ottenendo un segnale probabilmente troppo debole per l’ascolto con buona parte dei sistemi di riproduzione commerciali (le uscite cuffia di oggi stanno ad un livello adeguato quando il potenziometro è posto pressoché a fondo corsa, invece che ad un valore intermedio).

2. Per mantenere lo stesso fattore di scala tra codifica del segnale e livello d’ascolto, si utilizza un limiter che “fletta” solo la parte di segnale che andrebbe in clipping, riportandolo nel range di valori codificabili, e introducendo una distorsione che risulti la meno udibile o fastidiosa che sia possibile. Può ad esempio andar bene piegare il range che sta tra -1 e +17 dB per farlo rientrare nel range compreso tra -1 e 0 dB ossia con un fattore di compressione 18:1. Si può anche essere un po’ più morbidi ed usare gli ultimi 3 dB, invece di uno solo, come “paraurti”. Ne deriva che il range compreso tra -3 e +17 (sono 20 dB) verrà ripiegato nel range compreso tra -3 e 0 dB, con un fattore di compressione 20:3 che possiamo approssimare per eccesso con il rapporto 7:1.

Cerchiamo di applicare il secondo metodo con, per esempio, una delle workstation digitali più diffuse, ossia Avid Pro Tools: notiamo che i suoi plug-in (ci serve il compressor/limiter) non possono gestire segnali oltre gli 0 dB digitali, ed è quindi necessario che la somma (che invece di per sé è gestibile perché ogni bus possiede 48 dB di extra-headroom ossia ben più dei 17 dB a noi necessari) prima di entrare nel limiter sia attenuata di 17 dB, con un master fader sul bus usato; indi finalmente sia limitata con threshold (soglia d’intervento) fissata a (-3-17) dB ossia -20 dB, fattore di compressione 7:1, come già detto, e tempo di intervento rapidissimo. Il tempo di rilascio va regolato più morbido, a orecchio e in dipendenza dal materiale, così come il knee, facendo qualche test ad esempio sulle parti musicali percussive e sui dialoghi.

Un buon valore di partenza per il tempo di rilascio potrebbe essere 400 millisecondi, superando la durata critica della sillaba.
Una precauzione molto importante: si filtri l’LFE prima di sommarlo perché nei master capita che sia fornito non filtrato (verrà in ogni caso filtrato dalla codifica Dolby Digital per esempio). Il filtro sia posto attorno ai 120 Hz o meno, con pendenza di 12 dB/ottava (ma anche qui si potrebbe aprire un intero capitolo sull’argomento se lo si volesse afrontare con totale cognizione di causa). Allo stesso modo bisognerebbe analizzare meglio il problema della correlazione tra le tracce e della compatibilità mono…

Da 5+1 a stereo

Utilizzando un foglio elettronico come Apple Numbers o Microsoft Excel applichiamo i principi visti per la trasformazione (downmix) da 5+1 a mono al caso decisamente più frequente della riduzione a stereo (LR). Il caso monofonico ci è servito per introdurre con più facilità la questione. Come dati in ingresso dobbiamo inserire la matrice di conversione, esprimendo i valori comodamente in decibel, ovvero una tabella che per ogni input ci dice come vogliamo mappare tale input sugli output. Nel caso che stiamo trattando gli input sono i 6 canali originali, e l’output è rappresentato dalla coppia di canali Left e Right dello stereo che vogliamo ottenere. La mappatura potrebbe essere di questo tipo:

L: Il canale sinistro va nel canale sinistro, molto semplicemente. Ciò significa che va a 0 dB nel sinistro e a -∞ dB nel destro.

C: Il centrale va panpottato al centro di L ed R ossia distribuito equamente tra i due canali destinazione, attenuando di 3 dB per parte. Quindi C va in L attenuato di 3dB e in R attenuato parimenti di 3 dB.

R: Simmetricamente a quanto succede con L, il canale destro va nel destro, quindi (-∞) dB nel sinistro e 0 dB nel destro.

Ls: Non avendo a disposizione un codificatore Dolby Surround si può semplicisticamente destinare il surround sinistro al sinistro, attenuandolo visto che ha un’importanza inferiore al relativo canale frontale.

Se il mix originario è stato realizzato per il cinema si sa che i due canali surround riproducono attenuando di 3 dB e scendendo ulteriormente di, per esempio, 6 dB si arriva a -9dB su L e (-∞) dB sul destro.

Rs: Vale ovviamente lo stesso discorso dell’Ls, invertendo L ed R.

Lfe: Sia nel sistema d’ascolto cinematografico che in quello casalingo per il cinema tale canale, per gli effetti a bassa frequenza, fino a 120 Hz, è associato ad un sistema di amplificazione e diffusione tarato 10 dB più alto, nella banda interessata, rispetto a ciascuno dei tre canali frontali L, C ed R ipotizzati full-range. Quindi volendo dividere su L ed R, e considerando le lunghezze d’onda in gioco, si potrebbe assegnare tale canale attenuandolo di 5 dB su ciascuno dei due canali di destinazione. Questo valore di 5 dB, intermedio tra i tipici 3 del panpot in posizione centrale, e i 6 nel caso di combinazione perfettamente in fase, è un valore di massima, sul quale si può discutere; e 10 – 5 porta a +5 dB. Come detto si verifichi che il canale Lfe sia già tagliato con un opportuno filtro passabasso.

Tabella 1: Matrice di trasferimento per il downmix da 5+1 a stereo, con valori espressi in decibels.
Tabella 2: Matrice di trasferimento per il downmix da 5+1 a stereo, con valori espressi in percentuale.

Riassumendo: la matrice di trasferimento risulta come in tabella 1, e nel foglio elettronico assegneremo ad esempio i valori delle colonne L ed R, riga L, alle celle C10 e D10, per poi scendere a C11 e D11 e così via fino a C15 e D15.
A questo punto per il calcolo del massimo valore teorico ottenibile da somma dei 5+1 canali pesati secondo la tabella 1, sarà utile crearne automaticamente una versione con valori espressi in percentuale della piena codifica (ossia fissando 0 dB FS pari a 100%).

Per far ciò basterà sfruttare l’equazione (2) ossia porre la casella E10 pari a 10 elevato a c10 ventesimi 10C10/20 e copiare tale formula su tutte le caselle nell’area rettangolare delimitata da E10 in alto a sinistra ed F15 in basso a destra. Poi sommare i valori verticalmente assegnando la formula SOMMA (E10:E15) alla cella E6 e SOMMA (F10:F15) ad F6, convertire tali due valori in decibel sfruttando l’equazione 1 da porre, diciamo, nelle celle E7 ed F7; poi trovarne il massimo (nel nostro caso le due somme saranno identiche, ma nel caso di riduzione a L, C, R o in altri casi ciò potrebbe non accadere), da porre, approssimando per eccesso, nella cella H6 = INT (MAX (E7;F7) + 0.5). Possiamo ora sfruttare il dato appena calcolato nella cella H6 per dedurre buoni parametri per il master con compressore/limitatore a noi necessario. In effetti il master dovrà avere il fader a -H6 decibel, e il compressore i seguenti parametri:

Threshold: -H6 -3 dB
Gain: H6 (dovendo compensare la suddetta attenuazione sul master).

Ratio: (-threshold/3) : 1, ovvero (1 + H6/3) : 1 Nel nostro esempio, descritto dalla tab. 1 e

dall’equivalente tab. 2, i valori suggeriti risultano quindi:

Master level: -12 dB Threshold: -15 dB Gain: +12 dB
Ratio: 5:1

Per quanto riguarda tempo di reazione e di rilascio, come già detto nel paragrafo 1.1 si suggeriscono, in linea di massima, rispettivamente il valore minimo impostabile e 400 millisecondi. Resta da osservare che se il foglio elettronico utilizzato dovesse risultare problematico nel gestire valori come (-) dB, basterà sostituirli con un valore molto basso, come -1000 dB. Per chi preferisse utilizzare un linguaggio di programmazione come Python al posto di un foglio elettronico, presentiamo un semplice programma equivalente.

HEADROOM ENHANCING

Da quanto detto è facile dedurre che in generale ogni mixer digitale, in quanto sommatore di segnali, è intrinsecamente “a rischio clipping”. Non che l’analogico non fosse a rischio di saturazione, ma certamente essa era di natura più graduale, morbida, mentre il clipping digitale è davvero intollerabile.

Per quanto riguarda quindi l’headroom, ovvero il margine aggiuntivo di sicurezza, il sistema Pro Tools, per esempio, è lodevole perché garantisce 48 dB di livello sopra lo 0 dB FS nominale, perché può utilizzare 56 bit, di cui 8 per i valori sopra e 24 per i valori sotto i normali 24 bit dei campioni audio standard. Tuttavia i 56 bit entrano in gioco solo nella gestione di somma di canali e bus, non sugli ingressi e sulle uscite dei plug-in o nella registrazione dei files, o ancora nella conversione A/D e D/A (se non in modo abbastanza limitato con la funzionalità “soft clip limiting” che permette ai convertitori A/ D di digerire 4 dB di livello aggiuntivo). Ricordando che i plug-in sui canali dedicati alle tracce audio e di tipo aux-input sono pre-fader (mentre sono post-fader sui canali detti master-fader), ne risulta ad esempio che se il segnale inciso in una traccia è già prossimo al clipping, se si enfatizza con l’equalizzatore anche solo una certa parte dello spettro incorreremo facilmente in clipping, per quanto poi il fader del canale attenui magari l’uscita: troppo tardi! Allo stesso modo se molte tracce convergono ad un bus che, per esempio, raccoglie i contributi di varie sezioni di un’orchestra, e tale bus trasporta il segnale somma fino ad un aux-input dove si regola il livello generale dell’orchestra prima che la musica entri nel mix finale di un film insieme a dialoghi ed effetti, ecco che la presenza su questo aux-input di un qualsiasi plug-in farà sì che, se il segnale somma supera gli 0 dB FS all’ingresso del plug-in, clipperà irreversibilmente da quel punto in poi, e anche qui in maniera indipendente da un’eventuale attenuazione successiva all’ingresso nel plug-in. Come si risolve il problema? Non è difficile: se innalziamo il livello d’ascolto finale tenderemo di conseguenza ad abbassare i livelli delle tracce che contribuiscono al mix, riducendo il rischio che gli stadi somma (bus, canali di uscita) vadano in clipping. Meglio ancora sarà attenuare tramite gli “input gain” di un plug-in di ogni traccia, col vantaggio di mantenere i faders vicini allo 0 dB, dove la loro corsa permette maggiore precisione all’azione del fonico. Esiste una controindicazione: l’incisione del mix risulterà attenuata di tanti dB quanto è stato l’incremento nel guadagno d’amplificazione per l’ascolto durante la lavorazione. Utilizzando 24 bit, magari addirittura con dither, la perdita di qualità sarà quasi certamente trascurabile, e con un passaggio di prova sarà possibile verificare il valore del picco massimo raggiunto, o meglio ancora la distribuzione dei livelli (Digidesign Maxim), e poi ragionare su come e di quanto alzare il livello medio (se serve), normalizzando sul picco massimo oppure introducendo compressione/limiting di qualità, sul file inciso.

Qui il discorso si amplierebbe volentieri: sapevate che nel digitale PCM il segnale tra un campione e il successivo può superare gli 0 dB FS, addirittura teoricamente di un valore infinito? Un segnale in grado di farlo e’ un infinitamente lungo alternarsi di un valore non nullo, positivo e negativo ad una frequenza pari a metà di quella di campionamento, cui sia stato tolto un campione, facendo scorrere una delle due metà a riempire il buco. Comunque sia, tornando al nostro ragionamento, l’ottimizzazione dei livelli finali può essere realizzata in diretta, sul segnale ancora dotato di altissima qualità perché trasportato da 56 bit. Ecco come: invece di alzare il guadagno in ascolto registrando debole per poi alzare il mix finito, si può introdurre il compressore/limiter in ascolto, fin da subito, con l’ulteriore gradito vantaggio di poter valutare in diretta il risultato. Per far ciò si introduca un canale masterfader con attenuazione sul fader principale di, per esempio, una dozzina di dB, e un compressore con gain in uscita di altrettanto, che però fletta i valori alti facendoli rientrare sotto gli 0 dB FS; in tal modo solo il segnale che sarebbe andato in clipping verrà modificato dal compressore/limiter lasciando inalterato tutto il resto, tranne nelle vicinanze della soglia di intervento. È decisamente una buona abitudine incidere in parallelo una versione “senza trucchi e senza inganni”, a piena dinamica e quindi incisa mediamente molto più bassa, da conservare per un futuro in cui tutte le case saranno dotate di sistemi audio in grado di competere con la sfavillante dinamica del mondo reale.

Programma in linguaggio Python per il calcolo dei parametri
di compressione in un downmix.
print "Downmix calculator, by Simone Corelli, 2008"
 print
 import math
 menoinfinitodb=-1000.0
 matrice=[
 [0, -3, menoinfinitodb, -9, menoinfinitodb, +5]
 ,
 [menoinfinitodb, -3, 0, menoinfinitodb, -9, +5]
 ]
 massimodeimassimi=menoinfinitodb
 for destinazione in range(0,len(matrice)):
   somma=0
   print "Inputs per ottenere il canale",destinazione+1,":"
   for v in matrice[destinazione]:
     percent=math.pow(10,v/20.0)*100
     if v==menoinfinitodb:
       dcbls="-inf"
     else:
       dcbls=str(v)
     print "%6s dB = %7.3f %%" % (dcbls,percent)
     somma=somma+percent
     massimo=20*math.log10(somma/100.0)
     if massimo>massimodeimassimi:
       massimodeimassimi=massimo
   print "max: %7.3f %% = %6.2f decibels." % (somma, massimo)
   print "---"
 massimodeimassimi=int(massimodeimassimi+0.5)
 print "Porre il master fader a %i dB, il gain del compressore a %i dB, la soglia
 d’intervento a %i dB, il fattore di compressione
  a %.2f:1." % (-massimodeimassimi, massimodeimassimi,
   -massimodeimassimi-3, (massimodeimassimi+3)/3.0)

Simone Corelli, autore dell’articolo, fa parte del Gruppo Tematico per la Cinematografia Sonora.