Música

Meta está preparando un nuevo códec de audio que usa IA y será 10 veces mejor que un MP3

Meta quiere que los usuarios se olviden del MP3 como formato predeterminado para audios con su nuevo método de compresión de audio llamado EnCodec.

Meta, matriz de Facebook dirigida por Mark Zuckerberg, reveló un nuevo método de compresión de audio llamado EnCodec. Este formato se basa en la inteligencia artificial y tiene la capacidad de comprimir el sonido 10 veces más que el MP3 -el tipo de archivo de audio más usado por las personas de forma cotidiana en la actualidad- a 64 kbps sin perder su calidad.

Dos décadas después de que el MP3 se convirtiera en el estándar de los archivos digitales de audio gracias a balance entre calidad y compresión, la firma tecnológica de Mark Zuckerberg propone una alternativa que, mediante las capacidades que confiere la inteligencia artificial y un códec desarrollado por ella misma, pueda revolucionar este apartado.

EnCodec, el formato que quiere destronar al MP3

La matriz de Facebook indica que mediante esta nueva técnica se puede mejorar drásticamente la calidad del sonido de la voz en conexiones con poca banda ancha como, por ejemplo, las llamadas telefónicas en áreas donde la cobertura sea muy mala. Sin embargo, su verdadero objetivo autoimpuesto está en la música.

El equipo desarrollador detrás de este códec calificó a su método como un sistema de tres partes que está entrenado para poder comprimir el audio a un tamaño ideal. Para hacerlo, lo primero que lleva a cabo es la transformación de datos sin comprimir en una representación de espacio latente de menor velocidad. Luego, el cuantificador comprime esta representación hasta alcanzar el tamaño deseado sin que se pierda la información más importante para restaurar la señal original en el proceso.

Finalmente, el decodificador convierte una vez más los datos comprimidos durante el paso anterior y los transforma en un audio en tiempo real usando una red neuronal.

Una tecnología “10 veces mejor que el MP3”

Meta señala que el uso de discriminadores en su método logra comprimir el audio lo máximo posible sin que se pierdan los elementos más importantes de una señal, aquellos que la hacen reconocible como también lo hace el MP3.

"La clave de la compresión con pérdidas es identificar los cambios que no serán perceptibles por los humanos, ya que la reconstrucción perfecta es imposible a bajas tasas de bits. Para ello, utilizamos discriminadores para mejorar la calidad perceptiva de las muestras generadas. Esto crea un juego del gato y el ratón en el que el trabajo del discriminador es diferenciar entre las muestras reales y las reconstruidas", mencionó la firma.

Es importante resaltar que la red neuronal para comprimir y descomprimir audio no es una tecnología nueva, pero los desarrolladores de Meta mencionan que son el primer grupo que la aplican al audio estéreo de 48 kHz (calidad de DVD), la más común de los archivos de sonido profesional.

Además, Meta indica que esta tecnología EnCodec sigue en fase de desarrollo, pero se trata de un ambicioso proyecto que podría significar que, en el futuro, el audio de alta calidad logre usar menos ancho de banda.