|
神經聲碼器采樣端到端神經音頻編解碼框架,核心架構采用Encoder–Quantizer–Decoder三級結構。
算法在編碼端通;谝痪S卷積網絡,將時域波形映射到低維連續潛在表示;隨后通過殘差向量量化(Residual Vector Quantization, RVQ)進行多級離散化,將連續表示壓縮為有限碼本索引,實現可控碼率(如0.6–24 kbps);最后由對稱結構的解碼器重構時域波形。訓練階段采用端到端優化策略,損失函數通常包含多尺度STFT損失 + 感知對抗損失,判別器用于提升主觀音質。
這種時域卷積自編碼 + 殘差向量量化壓縮 + 感知對抗訓練優化,適合設計低碼率神經聲碼器。通過端到端的建模方式,結合頻率域與時域的聯合約束,使其在感知質量上顯著優于傳統參數化聲碼器。
|