Neurale audio codec van Facebook

SpectrumFacebook Research heeft een neurale audiocodec ontwikkeld en gepubliceerd met een hoge compressieverhouding en HiFi-kwaliteit, te vinden op github.com/facebookresearch/encodec

De codec draait in realtime op een CPU en bereikt een compressiesnelheid van 1,5 kbps voor muziek en 0,9 kbps voor spraak met een audiobandbreedte van 12 kHz. Het is gebaseerd op eerder werk dat al lang bekend is en een zogenaamde CNN-architectuur (Convolutional Neural Network). Neurale netwerken worden gebruikt voor spraakassistenten en spraakverbetering, maar hebben nog weinig toepassingen gevonden in amateurradio.

Aangezien een groot deel (82%) van het internetverkeer afkomstig is van audio- en videotransmissie, is er grote belangstelling voor het ontwikkelen van efficiënte, d.w.z. sterk comprimerende codecs. Met FreeDV bestaat er al een digitale spraaktransmissiemethode voor HF, maar deze gebruikt nog geen neurale codecs. Neurale, open source codecs kunnen in de toekomst leiden tot aanzienlijk verbeterde spraakkwaliteit en frequentiegebruik op alle amateurbanden en bieden veel mogelijkheden voor digitale zelfbouw.

Om de spraakkwaliteit van de EnCodec te demonstreren en te beoordelen, heeft Dr. Matthias Jung, DL9MJ, audiobestanden met verschillende compressiefactoren gecreëerd, zie https://dl9mj.de/encodec/. EnCodec haalt daarbij een compressiefactor tot 700 in vergelijking met het originele WAV-bestand, terwijl een standaard MP3-bestand slechts factor 2 haalt.

 

Geef een antwoord