神經聲碼器-南京梧桐微電子科技有限公司

算法技術

傳統聲碼器

神經聲碼器

回聲抵消

噪聲抑制

神經聲碼器

您當前的位置：首頁 - 神經聲碼器

神經聲碼器采樣端到端神經音頻編解碼框架，核心架構采用Encoder–Quantizer–Decoder三級結構。

算法在編碼端通�；谝痪S卷積網絡，將時域波形映射到低維連續潛在表示；隨后通過殘差向量量化（Residual Vector Quantization, RVQ）進行多級離散化，將連續表示壓縮為有限碼本索引，實現可控碼率（如0.6–24 kbps）；最后由對稱結構的解碼器重構時域波形。訓練階段采用端到端優化策略，損失函數通常包含多尺度STFT損失 + 感知對抗損失，判別器用于提升主觀音質。

這種時域卷積自編碼 + 殘差向量量化壓縮 + 感知對抗訓練優化，適合設計低碼率神經聲碼器。通過端到端的建模方式，結合頻率域與時域的聯合約束，使其在感知質量上顯著優于傳統參數化聲碼器。

南京麒麟啟迪科技城華業園2棟

info@indusic.com

025-84813173

025-84812173