7. Audio. Naturalesa ondulatòria del so i digitalització. Standards.

La part de la física que estudia el so és l'acústica.  El so és una vibració longitudinal de partícules d'aire que s'originen entre una font emissora (ex. cordes vocals, un instrument musical) i un receptor(normalment, el tímpan d'una persona o animal). El so és un fenòmen ondulatori que ocorre durant un temps, al llarg del qual va variant, i que té una duració indeterminada.  Així, una de les característiques més immediates d'un registre sonor és la duració d'aquest registre, normalment mesurada en minuts i segons.

ones          

     





                                  nº d'ones
       Freqüència =  __________   → es mesura en S -1 = Hz  (Hertz)        1000 Hz = 1KHz
                                    segon

NOTA: En l'eix vertical d'aquest gràfic també es pot estudiar, en lloc de la posició que ocupa la partícula en un instant donat, la pressió que exerceix en cada instant la partícula d'aire que vibra sobre la partícula contígua en la mateixa direcció. El llindar de pressió que detecta el tímpan humà són 20 micropascals.  Per  mesurar la intensitat del so, però, no s'usa ni una unitat de distància ni  una unitat de pressió, sinò una relació adimensional entre una mesura de pressió standard i la mesura real, que s'anomena decibel, i que funciona segons una escala logarítmica, imitant el comportament del tímpan humà. El que s'ha de tenir clar és que aquest eix vertical dona una idea de la intensitat, potència o volum del so que es descriu en aquest gràfic.


El rang de percepció del so de l'oïda humana és:

    - Ones més separades     →  so més greu     →  freqüencies baixes     →               16           Hz

    - Ones més juntes              →  so més agut     →  freqüencies altes         →              20.000     Hz 


Eix vertical:          L'altura a la que arriba una partícula d'aire es relacina amb el volum del so.  Quieter = més silenciós. Louder = més alt.
Eix horitzontal:     La rapidesa amb que  oscil·la la partícula es relaciona amb el to: Deeper = Més greu    Higher = Més agut. Hi ha animals que poden captar freqüències més altes que les que podem captar les persones.  Aquestes freqüències s'anomenen ultrasons.


Tractament Analògic del so.  

Un micròfon és un transductor electroacústic, que converteix l'ona acústica en ona elèctrica. Aquesta ona elèctrica es pot conduir per un fil elèctric, amplificar electrònicament, i reproduïr en un transductor invers, l'altaveu, que torna a convertir l'ona elèctrica en ona acústica.

tractament de so analogic

L'ona elèctrica també es pot enregistrar (grabar, record) sobre medis analògics, imitant la forma de l'ona original. Els dos mètodes analògics d'enregistrament d'audio més coneguts són el disc de vinil i la cinta de casette.

En un disc de vinil, el solc (surco) que emmagatzema el so té la mateixa forma que l'ona acústica original.  L'agulla funciona com un micròfon que reconeix la forma física de l'ona física, i la converteix en un impuls elèctric. 

   
Disc de vinil, i fotografia ampliada del solc. Aquest solc té una ona a cada costat; són els dos canals de l'audio estereofònic que es reprodueixen simultàniament.

En una cinta de cassette, s'enregistra  la forma de l'ona sonora mitjançant marques magnètiques, molt  fàcilment traduibles "des de" i  "a" una ona elèctrica.

   
Capçal de lectura d'una unitat de cassette, i esquema d'una cinta dins la seva carcassa



Digitalització del so

Un arxiu d'audio digital és un enregistrament d'audio en un fitxer informàtic. Per crear-ne un, el senyal sonor analògic   es recull igualment amb un micròfon, i a continuació se li aplica elprocés de CAD, conversió analògica-digital.  Aquest procés,  consta de tres fases:

    1 - Presa de mostres. El so és una magnitud contínua en el temps. El que feim és decidir quantes "lectures de so"  prendrem cada segon. Cada lectura de so, cada mostra, és un "fragment" de so de duració minúscula.
           

     Això és la freqüència de mostra, que no s'ha de confondre amb la freqüència de la ona sonora.


     Valors típics són 
8000, 44100, 96000 mostres per segon. 

     També se li diu resolució d'audio, perquè dona una idea de la "densitat" de so
             
                       (Num mostres = Num pixels ,   1segon=1cm,     Num mostres/segon =  Num pixels / cm)



    2 - Quantificació. Aquí hem de identificar quin so llegim. Cada mostra que es pren pel micròfon genera un voltatge que s'ha de identificar amb un rang de freqüències. Agrupam una certa quantitat de freqüències consecutives i les considerarem un sol valor.

            - Quan més petit és aquest rang, més sons diferents es poden identificar.
            - Quan més gran és aquest rang, menys sons diferents es poden codificar.

    Podriem, per exemple, identificar les freqüències  múltiples de 2, o be  les múltiples de 10.
             - En el primer cas, codificam un so per cada dos freqüències. Tendrem molts de sons distints.
             - En el segon cas codificam un so per cada 10 freqüències. Tenim menys quantitats de sons, menys "riquesa de so" .
 
     El que es fa aquí en realitat és decidir quants i quins elements diferents s'han de codificar, i això depen del número de bits que volguem dedicar a codificar sons.

    Valors típics són
16, 24 o 32 bits (2, 3 o 4 bytes) per mostra.

     Aquesta quantitat de bits és la profunditat o resolució del so digital.  

    A més, en alguns formats d'audio digital es decideix eliminar la possiblitat de codificar sons que sabem que no es produiran en l'entorn en que estam.  Per exemple, els micròfons de telefonia mòbil més senills no capten freqüències massa diferents de les que produeix la veu humana, entre 300Hz i 3500Hz, un tram molt més petit que el que pot captar l'orella.  Així, els possibles sons a codificar són menys, i es poden usar menys bits per a representar-los, per a estalviar espai d'emmagatzemament i guanyar rapidesa en la transmissió. Això explica perquè, amb alguns equips,  si intentam transmetre música per telèfon, la qualitat d'audio és tan dolenta. 

Exemple  de taula de rangs a quantificar

                                   

    3 - Codificació. Aquest és el pas final, que consisteix en realment assignar una seqüència de bits a cada mostra presa.  Aquesta assignació es pot fer segons diferents codis. Per exemple PCM (Pulse Code Modulation)


Una vegada digitaltizat el so, es pot entendre un canal d'audio digital com un bloc de bits que es va llegint al llarg del temps. Quan més gran sigui la resolució d'audio, i més alta sigui la freqüència de mostra, més bits són necessaris per a codificar un segon d'audio.
 


Un fitxer d'àudio digital pot ser  monofònic (d'un sol canal) , estereofònic (de dos canals), d'Audio 5.1 (sis canals, cada un codificant amb valors de freqüències diferents), o altres formats.


Els diferents formats d'audio digital poden diferenciar per la codificació que assignen  a cada freqüència, però també poden tenir qualitats distintes segons la resolució, freqüència de mostra i nº de canals que utilitzin.  Quan més alts són aquests valors, més espai ocupa cada segon d'audio digital en un fitxer informàtic, i més costa d'enviar-lo per un canal de telecomunicacions. Aquest és el preu que s'ha de pagar per a obtenir una major qualitat d'audio. 

Exemples de formats d'audio:
    Format wave (ona), extensió .wav, que té una freqüència de mostra de 44100 Hz, resolució de 16 bits, dos canals, i una assignació de valors binaris a cada freqüència que s'anomena PCM (Pulse Code Modulation)

    Format  Compact disc Audio, extensió .cda, és el .wav adaptat a l'estructura de fitxers sobre un CD  òptic de 720Mb de capacitat.  És el que usen els CDs de música.
    Format MPEG1-Audio Layer 3, abreujat com mp3. En aquest format  el que es fa és decidir el
bitrate (tasa de bits), el número de bits per segon que s'envien al reproductor, i els altres paràmetres s'ajusten a aquest valor. Bitrates mp3 típics són 128, 192, 256, 320  kbps (kilobits per segon). mp3 utilitza tècniques de compressió d'audio semblants a les que abans haviem explicat per les imatges en format jpg.








Existeixen editors d'audio que permeten captar el so d'una font externa (micròfon, entrada d'audio des d'un reproductor analògic...), guardar-lo en diferents formats, i  també editar el seu contingut de manera semblant a com s'editen imatges.