人聲編碼器
人聲編碼器(voice encoder編碼器編碼器),簡稱聲碼器,也稱語音信號分析與合成系統,是一種分析和合成聲音的系統,主要用于合成人的語音。這種編碼器的主要概念是在傳輸聲音之前對聲音進行編碼,允許更多的語音信道共享同一個無線電電路或海底電纜。語音編碼器可以通過硬件或軟件實現。
概況簡介 編輯本段
說話是人類最直接的方式、最有效的信息交流方式。在通信技術的發展中,語音通話一直是大多數通信系統的基本功能。信息傳遞的內容開始向多元化方向發展,圖像、視頻等非語音信息在通信中的比重逐漸增加,但語音通話便宜、便利仍然是最廣泛使用的通信方式,因此有效地傳輸語音信息仍然是許多通信系統的基本功能之一。在數字通信系統中,原始語音信號在傳輸前必須進行數字化處理,但數字化后的語音信號有很多冗余。對語音信號進行編碼可以有效地去除數字語音信號中的冗余信息,降低編碼速率,因此語音編碼技術在現代通信系統中得到了廣泛的應用。
聲音編碼器或聲碼器語音信號編碼器和解碼器。使用語音信號模型進行語音分析和合成的系統。傳播時只使用模型參數,編解碼時使用模型參數估計和語音合成技術。在其語音模型中,語音被視為快速變化的激勵信號的輸出,該信號被發送到緩慢變化的信道濾波器。當有聲時,激勵信號是噪聲,當有聲時,激勵信號是具有音調周期的脈沖序列。語音模型中的語音信號由兩組參數表示。一組是激勵源參數,包括濁音和清音指示、基音頻率和振幅;另一組是信道濾波器的響應參數,參數不同,聲碼器的類型也不同。傳輸的是語音信號中沒有冗余的模型參數。壓縮比大,但是丟失了語音的一些細節,對語音信號的自然度影響很大。開發的聲碼器包括通道聲碼器、共振峰聲碼器、同態聲碼器、線性預測聲碼器和音素聲碼器。聲碼器早期用于軍事通信,雖然壓縮比大,但重建語音質量差。線性預測聲碼器可以滿足電話通信對語音質量的要求,并應用于移動通信中、語音存儲和轉發可視電話等領域有著廣闊的應用前景。
聲碼器的明顯優勢是碼率低,所以適用于窄帶、貴劣信道條件下的數字電話通信可以滿足節約頻帶的要求、省電和抗干擾編碼的要求。低數字速率也有利于語音存儲和語音加密。聲碼器的缺點是音質不如普通數字電話,工作過程復雜,成本高。現代聲碼器主要用于軍隊、政府和那些值得付出代價來換取通信安全的人(保密)的場合。隨著對人類發聲機制和聽覺機制的深入研究,以及計算機技術和大規模集成電路的發展,聲碼器的音質和小型化將不斷提高,并將在數字通信中得到更廣泛的應用。
聲碼器非常有利于語音存儲和語音加密、有算法,速度快、質量好,結構簡單、適合于窄帶、昂貴和劣質信道條件下的數字電話通信。但是工作過程復雜,價格高,音質有點差。
編碼理論 編輯本段
人說話時,人的聲音是由喉頭的聲帶開合聲門產生的,其中包含許多周期性的波形和許多諧波這些周期波可視為基本聲源信號。這些聲源信號然后通過鼻子和喉嚨(可以認為是一個復雜的共振系統)通過改變口型來改變系統,產生不同的和聲內容,創造出各種聲音;此外,氣流通過不同的口型會產生濁音和哽咽聲。聲碼器發送端的分析器分析語音信號,并將信號分成多個頻帶(數字越大,分析就越準確)輸入信號經過多頻帶濾波器,每個頻帶分別經過包絡檢波器,包絡檢波器得到的控制信號輸出到解碼器。由于控制信號的變化速度比原始語音波形慢得多,聲碼器大大減少了語音傳輸所需的頻帶。如果對控制信號進行加密,可以保證語音傳輸的安全性,防止被截獲。與原來的語音數據相比,傳輸數據可以壓縮到原來的十分之一左右。語音信號的重建將顛倒這些步驟;接收機接收到各個頻帶的包絡參數后,分別得到各個頻帶的包絡,可以看作多個時變濾波器。接著由一個新的“豐富頻率成分”的聲源信號(可視為噪音訊號),通過每個頻帶的濾波器得到每個頻帶的包絡信號,最后將這些信號相加得到恢復的語音信號。值得注意的是,通過上述編碼方法,原始信號的很多信息都被丟棄了,主要是信息頻譜的瞬時頻率,也就是頻譜的相位。雖然這種信息的丟失保留了語音的可懂度,但相位的丟失意味著音高的丟失,就像漢語一樣“平、上、去、入”等五次,信息會丟失,聽起來像機器人在說話,不會“抑揚頓挫”這種“機器人式”其特殊的音色流行于流行音樂和音響娛樂中,廣泛應用于電子音樂中。
類型種類 編輯本段
1939年以后,已經制造的聲碼器主要包括:通道聲碼器、共振峰聲碼器、同態聲碼器、線性預測聲碼器和音素聲碼器。
通道聲碼器:在該聲碼器中,由14~20個帶通濾波器組成的濾波器組對輸入語音信號的幅度譜進行分析濾波器組將頻率范圍劃分為許多相鄰的頻帶或通道,每個濾波器的輸出是一個包絡緩慢變化的信號包絡的大小反映了該頻帶中信號的功率。因此,每個帶通濾波器輸出的包絡可以近似表示語音信號的幅度譜。另一方面,音調檢測和清音鑒別器提供音調周期和清音指示。在解碼端,有與編碼端相同的濾波器組。濁音指示用于選擇濾波器組的激勵源,濁音時使用脈沖串,濁音時使用噪聲。脈沖串的頻率由基音控制,譜包絡信息用于控制各個濾波器的輸出,最終可以合成接近原始譜包絡的語音信號。信道聲碼器的語音質量,即使在2.4kbit/Srate還能做到高清,抗背景噪聲能力強,穩定性好,因此得到廣泛應用,多年來興趣不減。
共振峰聲碼器:它是信道聲碼器的變體,對共振峰頻率和帶寬進行編碼。根據聽力測試的結論,一般只需要傳輸3~4個共振峰,所以數據率可以很低。當共振峰提取正確時,共振峰聲碼器在語音質量上可以超過信道聲碼器,而速度只有后者的一半。只是因為正確跟蹤共振峰頻率相當困難,阻礙了這種聲碼器的實用化,但對它的研究一直在進行。
同態聲碼器:又稱為倒譜聲碼器,它傳遞的模型參數是語音的倒譜和語音的幅度譜,可以反映信道響應但理論上,倒譜可以使語音模型中的激勵源和信道響應參數得到理想的分離雖然在理論上是一種方法,但同態聲碼器在實際實現中需要大量的計算,在相同語音質量下數據率高于信道聲碼器,抗語音背景噪聲能力差,所以只能得到有限的結果。
線性預測聲碼器:它是應用最廣泛的聲碼器。它的主要特點是使用線性預測來模擬信道的響應。除了激勵參數,聲碼器傳輸的參數是線性預測系數。典型的線性預測系數代表聲道的沖激響應,但語音質量對這些系數的量化非常敏感,每個參數需要的比特數較多,所以在實際中經常使用各種等效參數,如反射系數線譜等效等,這些等效參數需要的量化比特數較少,對比特數不敏感。線性預測聲碼器的激勵模型得到了改進,如濁音聲門波激勵模型或多脈沖激勵模型。經過這些改進,線性預測聲碼器的語音質量處于聲碼器的前列。
音素聲碼器:最低速率聲碼器主要由音素識別器和音素合成器組成。但實際使用的語音單位一般不是音位,而是復合音位等更大的語音單位,因為不考慮上下文而連接的音位串是無法理解的。這個聲碼器的語音質量已經基本失去了自然度,聲碼器要求的數據速率可以是200bit/s以下。
在聲碼器的歷史上也出現過相關的聲碼器、相位聲碼器和f.Motzer等提出的Motzer聲碼器。其中,相位聲碼器雖然在一般文獻中被歸為聲碼器,但實際上屬于次待機編碼。它和相關的聲碼器都沒有在實踐中應用,只有Motzer聲碼器被應用。
附件列表
詞條內容僅供參考,如果您需要解決具體問題
(尤其在法律、醫學等領域),建議您咨詢相關領域專業人士。