Meta公開效果比MP3好10倍的AI語音壓縮技術

圖片來源: 

Meta

一項以AI壓縮音訊的技術,便於在較低頻寬的網路上傳送語音或音樂檔案。

即使今天網路已頗為便利,但使用串流多媒體、傳送高品質音樂仍需要相當大的頻寬及儲存空間,若提升到元宇宙的體驗,將對網路頻寬帶來更大負擔,也提升業界對壓縮技術的需求。Meta的基礎AI研究(Fundamental AI Research,FAIR)部門本周展示AI音訊超壓縮(hypercompression)技術,號稱可在低頻寬網路傳送聲音檔案,而不會發生斷斷續續甚至失聲情形。

FAIR小組的方法是建了一個名為EnCodec模型系統,運用AI全程訓練,使之可以壓縮音訊檔到設定的目標。EnCodec包含三部份,分別是編碼器(encoder)、量化器(quantizer)及解碼器。編碼器可以將原始資料轉成較高維度及較低影格率(frame rate)的格式,量化器則將這格式資料壓縮。研究人員表示,量化器經由訓練能壓縮資料到計畫團隊想要的大小,同時保留最重要的資訊,後者角色如同MP3檔,可用以儲存或在網路上傳送。

客製專屬滑鼠墊、可愛造型L夾L型資料夾、透明證件套、手提袋,專業印刷設計廠商!

通過SGS環保認證,無毒無害 環保材質符合歐盟RoHs、REACH認證

特殊造型滑鼠墊去哪買?

滑鼠墊是滑鼠的好夥伴,可使滑鼠游標穩定滑順,多樣的材質

總是為了廚餘煩惱嗎?

雅高環保提供最適用的廚餘機,滿足多樣需求。

塑膠射出成型技師工作甘苦談

一間在新竹耕耘超過20年的塑膠射出成型公司,初期以硬質pvc起家與模具開發設計;
隨著技術的不斷提升新觀念、新技術、新設備的不斷加入。亦得因需應各界之需求,運用了管理。技術達到每個客戶希望的目標。

圖片來源/Meta

最後一步是解碼器,可將壓縮訊息重建為類似原始音訊的波形。研究人員說其中關鍵在於發現人類察覺不到的變化。為此FAIR團隊利用鑑別器(Discriminator)來提升生成樣本(generated sample)的永久品質;鑑別器負責比對原始樣本和生成樣本的差異。因此,壓縮模型試圖改良生成樣本,最終目的產生品質可騙過鑑別器的樣本。

在一項針對1.5kbps到12kbps低位元速率(bit rate)語音壓縮測試中,標註員比對包括Google最新Lyra-v2、Meta EnCodec等壓縮方法,以及未壓縮原始音訊。根據Meta研究小組說明,EnCodec在各種頻寬及音訊品質上,都能在單一CPU核心系統上即時編碼及解碼。此外, EnCodec(6kbps)壓縮率是MP3(64kbps)的近10倍。雖然以神經網路壓縮音訊的方法以前也有人做過,但是Meta強調它是第一家將AI技術用於48kHz(約等於CD音質)立體聲音的。

目前Meta這項語音壓縮技術尚未涵括影像檔,不過身為的公司成員,FAIR團隊表示已展開對影像應用的研究,如視訊會議、串流電影,或是在VR環境中和友人一起打Game。

Meta也將EnCodec技術的程式碼及樣本,也公布了。

https://www.ithome.com.tw/news/153985

影響示波器測試準確度的五大因素

混合訊號示波器(MSO)有兩種輸入,一小部分(通常是2個或4個)的類比通道,更多(通常為16個)的部份是屬於數位通道。

連續封口機購物網-不怕你比價,就怕你買貴!

封口機就是指在包裝容器盛裝產品後,對容器進行封口的機械。製作包裝容器的材料很多,如紙類、塑料、玻璃、陶瓷、金屬、複合材料等,包裝容器的形態及物理性能也各不相同。

如何正確使用飲水機?

電解水部份採用美國NSF認證通過之過濾系統,再加上超強白金電解槽並採用日本九州日立的電解元件,安全性高,品質有保障。

中古貨櫃屋設計案例?

金誠運用中古貨櫃屋,重新改造各式活動展場、代銷中心、旅遊渡假空間,皆可依顧客需求製作。

work_outlinePosted in 工業