7. Audio. Naturalesa ondulatòria del so i
digitalització. Standards.
La part de la física que estudia el so és l'acústica. El so és una vibració longitudinal de partícules
d'aire que s'originen entre una font emissora (ex. cordes vocals, un instrument musical) i un receptor(normalment,
el tímpan d'una persona o animal). El so és un
fenòmen ondulatori que ocorre durant un temps, al llarg del
qual va variant, i que té una duració indeterminada.
Així, una de les característiques més
immediates d'un registre sonor és la duració d'aquest registre, normalment mesurada en minuts i segons.
nº d'ones
Freqüència = __________ → es mesura en S -1 = Hz (Hertz) 1000 Hz = 1KHz
segon
NOTA: En l'eix vertical
d'aquest gràfic també es pot estudiar, en lloc de la
posició que ocupa la partícula en un instant donat, la pressió
que exerceix en cada instant la partícula d'aire que
vibra sobre la partícula contígua en la mateixa
direcció. El llindar de pressió que detecta el
tímpan humà són 20 micropascals. Per
mesurar la intensitat del so, però, no s'usa ni una unitat
de distància ni una unitat de pressió, sinò
una relació adimensional entre una mesura de pressió standard i la mesura real,
que s'anomena decibel,
i que funciona segons una escala logarítmica, imitant
el comportament del tímpan humà. El que s'ha de tenir clar
és que aquest eix vertical dona una idea de la intensitat, potència o volum del so que es descriu en aquest gràfic.
El rang de percepció del so de l'oïda humana és:
- Ones més separades →
so més greu →
freqüencies baixes →
16
Hz
- Ones més juntes →
so més agut →
freqüencies altes →
20.000
Hz
Eix vertical: L'altura a la que arriba una
partícula d'aire es relacina amb el volum del so. Quieter =
més silenciós. Louder = més alt.
Eix horitzontal: La rapidesa amb que oscil·la la partícula es
relaciona amb el to: Deeper = Més greu Higher =
Més agut. Hi ha animals que poden captar freqüències
més altes que les que podem captar les persones. Aquestes
freqüències s'anomenen ultrasons.
Tractament Analògic del so.
Un micròfon
és
un transductor electroacústic, que converteix l'ona
acústica en ona elèctrica. Aquesta ona elèctrica
es pot conduir per un fil elèctric, amplificar
electrònicament, i
reproduïr en un transductor invers, l'altaveu, que torna a convertir l'ona
elèctrica en ona acústica.
L'ona elèctrica també es pot enregistrar
(grabar, record) sobre medis analògics, imitant la forma de l'ona original. Els dos mètodes
analògics d'enregistrament d'audio més coneguts
són el disc de vinil i la cinta de casette.
En un disc de vinil, el solc (surco) que emmagatzema el so
té la mateixa forma
que l'ona acústica original. L'agulla funciona com un
micròfon que reconeix la forma física de l'ona
física, i la converteix en un impuls elèctric.
Disc de vinil, i
fotografia ampliada del solc. Aquest solc té una ona a cada
costat; són els dos canals de l'audio estereofònic que es
reprodueixen simultàniament.
En una cinta de cassette, s'enregistra la forma de l'ona sonora mitjançant marques
magnètiques, molt fàcilment traduibles "des de" i
"a" una ona elèctrica.
Capçal de lectura d'una unitat de cassette, i esquema d'una cinta dins la seva carcassa
Digitalització del so
Un arxiu d'audio digital és un enregistrament d'audio en un fitxer informàtic. Per crear-ne un, el senyal sonor analògic es recull igualment amb un micròfon, i a continuació se li aplica elprocés de CAD, conversió analògica-digital. Aquest procés, consta de tres fases:
1 - Presa de mostres.
El so és una magnitud contínua en el temps. El que feim
és decidir quantes "lectures de so" prendrem cada
segon. Cada lectura de so, cada mostra, és un "fragment" de so de
duració minúscula.
Això és la freqüència de mostra, que no s'ha de confondre amb la freqüència de la ona sonora.
Valors típics són 8000, 44100, 96000 mostres per segon.
També se li diu resolució d'audio, perquè dona una idea de la "densitat" de so
(Num mostres = Num pixels , 1segon=1cm,
Num mostres/segon = Num pixels / cm)
2 - Quantificació.
Aquí hem de identificar quin so llegim. Cada mostra que es pren pel micròfon genera un voltatge que s'ha
de identificar amb un rang de freqüències. Agrupam una certa quantitat de freqüències consecutives i les considerarem un sol valor.
- Quan més petit és aquest
rang, més sons diferents es poden identificar.
- Quan més
gran és aquest rang, menys sons diferents es poden codificar.
Podriem, per exemple, identificar les
freqüències múltiples de 2, o be les
múltiples de 10.
- En el primer cas, codificam un so per cada dos
freqüències. Tendrem molts de sons distints.
- En el segon cas
codificam un so per cada 10 freqüències. Tenim menys quantitats de sons, menys "riquesa de so" .
El
que es fa aquí en realitat és decidir quants i quins elements diferents s'han de codificar, i això depen del número de bits que volguem
dedicar a codificar sons.
Valors típics són 16, 24 o 32 bits (2, 3 o 4 bytes) per mostra.
Aquesta quantitat de bits és la profunditat o resolució del so digital.
A més, en alguns formats d'audio digital es decideix
eliminar la possiblitat de codificar sons que sabem que
no es produiran en l'entorn en que estam. Per exemple, els
micròfons de telefonia mòbil més senills no capten
freqüències massa diferents de les que produeix la veu
humana, entre 300Hz i 3500Hz, un tram molt més petit que el que
pot captar l'orella. Així, els possibles
sons a codificar
són menys, i es poden usar menys bits per a representar-los, per a estalviar espai d'emmagatzemament i guanyar rapidesa en
la transmissió. Això explica perquè, amb alguns equips, si
intentam transmetre música per
telèfon, la qualitat d'audio és tan
dolenta.
Exemple de taula de rangs a quantificar
3 - Codificació.
Aquest és el pas final, que consisteix en realment assignar
una seqüència de bits a cada mostra presa. Aquesta assignació es pot fer segons diferents codis. Per exemple PCM (Pulse Code Modulation)
Una vegada digitaltizat el so, es pot entendre un canal d'audio digital com un bloc de bits que es va llegint al llarg del
temps. Quan més gran sigui la resolució d'audio, i
més alta sigui la freqüència de mostra, més
bits són necessaris per a codificar un segon d'audio.
Un fitxer d'àudio digital pot ser monofònic (d'un sol canal) , estereofònic (de dos canals), d'Audio 5.1 (sis canals, cada un codificant amb valors de freqüències diferents), o altres formats.
Els
diferents formats d'audio digital poden diferenciar per la
codificació que assignen a cada freqüència,
però també poden tenir qualitats distintes segons la
resolució, freqüència de mostra i nº de canals
que utilitzin. Quan més alts són aquests valors,
més espai ocupa cada segon d'audio digital en un fitxer informàtic, i
més costa d'enviar-lo per un canal de telecomunicacions.
Aquest és el preu que s'ha de pagar per a obtenir una major
qualitat
d'audio.
Exemples de formats d'audio:
Format wave
(ona), extensió .wav, que té una freqüència
de mostra de 44100 Hz, resolució de 16 bits, dos
canals, i una assignació de valors binaris a cada
freqüència que s'anomena PCM (Pulse Code Modulation)
Format Compact disc Audio,
extensió .cda, és el .wav adaptat a l'estructura de
fitxers sobre un CD òptic de 720Mb de capacitat.
És el que usen els CDs de música.
Format MPEG1-Audio Layer 3, abreujat com mp3. En aquest format el que es fa és decidir el bitrate
(tasa de bits), el número de bits per segon
que s'envien al reproductor, i els altres
paràmetres s'ajusten a aquest valor. Bitrates mp3
típics són 128, 192, 256, 320 kbps (kilobits
per segon). mp3 utilitza tècniques de compressió d'audio
semblants a les que abans haviem explicat per les imatges en format jpg.
Existeixen editors d'audio que
permeten captar el so d'una font externa (micròfon, entrada
d'audio des d'un reproductor analògic...), guardar-lo en
diferents formats, i també editar el seu contingut de
manera semblant a com s'editen imatges.