語音識別技術(shù)
語音識別技術(shù)又稱自動語音識別(Automatic Speech Recognition,ASR),是以語音為研究對象,通過語音信號處理和模式識別,使機器自動識別和理解口語或文字的技術(shù)。語音識別技術(shù)通常使用計算機程序。通過分析語音信號的特征,如頻率、音調(diào)、語速、語調(diào)等。,聲學建模、語言模型、語音和自然語言之間的對齊和解碼被進一步處理,最終輸出可理解的文本結(jié)果。
語音技術(shù)的研究正式進入起步階段。語音識別是一門涉及面很廣的交叉學科,與聲學、語音學、語言學、信息論、模式識別理論和神經(jīng)生物學等學科密切相關(guān)。它正逐漸成為信息技術(shù)中人機接口的關(guān)鍵技術(shù)。語音識別技術(shù)和語音合成技術(shù)的結(jié)合,使得人們可以在不使用鍵盤等輸入工具的情況下,通過語音命令進行相應的操作。
語音識別是人工智能領(lǐng)域相對成熟的技術(shù),已廣泛應用于智能助理、語音識別交互、智能家居、金融交易等領(lǐng)域。隨著移動互聯(lián)網(wǎng)的發(fā)展,基于Deep Peak2和Deep Fully等語言模型的語音識別技術(shù)已經(jīng)廣泛應用于各種產(chǎn)品中。
發(fā)展歷史
20世紀50年代,貝爾實驗室實現(xiàn)了世界上第一個可以識別10個英文數(shù)字的語音識別系統(tǒng),即Audry系統(tǒng),標志著語音識別研究的開始。
20世紀60年代,隨著計算機技術(shù)的發(fā)展,開始創(chuàng)建使用DP(動態(tài)編程)和LP(線性預測)分析語音信號的聲學模型。通過這個模型,人們將語音信號轉(zhuǎn)換成數(shù)字形式供計算機處理。
1970年,前蘇聯(lián)的維利奇科和扎戈魯科將模式識別的概念引入語音識別。同年,板倉提出了線性預測編碼(LPC)技術(shù),并將其應用于語音識別。1978年,在前蘇聯(lián)科學家Vintsyuk的工作基礎(chǔ)上,日本人Sakoe和Chiba成功地使用動態(tài)編程算法在時間軸上對齊了兩個不同長度的語音,這就是我們現(xiàn)在經(jīng)常提到的動態(tài)時間彎曲(DTW)。該算法將時間正則化和距離計算有機地結(jié)合起來,解決了不同時長的語音匹配問題。
在1970年至1980年期間,語音識別的研究從針對特定人的小規(guī)模獨立單詞語音識別轉(zhuǎn)向獨立于說話人的連續(xù)語音識別。
20世紀80年代,來自IBM的工程師耶利內(nèi)克和他的團隊開發(fā)了一種聲控打字機。一個名為Tangora的實驗性語音識別系統(tǒng)使用IBM PC AT來識別語音并將其打印在紙上。每個說話者必須單獨訓練打字機,使其能夠識別自己的聲音,并在每兩個單詞之間停頓一下。到20世紀80年代中期,Tangora識別的詞匯量達到了2萬個單詞,這證明了統(tǒng)計方法的有效性。
1989年,Rabiner提出了隱馬爾可夫模型(HMM),將語音識別的研究從模板匹配方法轉(zhuǎn)變?yōu)榛诟怕式y(tǒng)計的統(tǒng)計建模。
自2000年以來,人機語音交互成為研究的熱點。研究重點是即興口語和自然口語對話的識別和理解,以及多語種同聲語音翻譯。
2011年,蘋果推出了智能語音系統(tǒng)Siri,它可以通過語音接收用戶的需求,讓用戶跳過復雜的操作步驟,實現(xiàn)自己的需求,從而改變了人們與可計算設(shè)備的溝通方式。
2012年,谷歌首次將深度神經(jīng)網(wǎng)絡(luò)用于語音識別領(lǐng)域并取得重大突破。該技術(shù)可以大大提高語音識別的準確率和速度,使語音識別可以廣泛應用于物聯(lián)網(wǎng)、智能家居、語音助手等領(lǐng)域。
2017年,百度提出了Deep Speech2和Deep Peak2等端到端模型。同年,谷歌將機器翻譯中使用的Seq-Seq方法應用于語音識別,并提出了自注意和多頭結(jié)構(gòu),取得了良好的識別效果。谷歌還在2018年的Interspeech大會上提出了LAS(Listen Attend and Spell)在線識別產(chǎn)品。。同年,中國科大訊飛公司提出了深度卷積神經(jīng)網(wǎng)絡(luò)(DFCNN),阿里巴巴提出并開放了基于雙向LSTM的深度前饋順序存儲網(wǎng)絡(luò)(DFSMN)。這些模型和技術(shù)推動了語音識別技術(shù)的發(fā)展。
工作原理
語音識別的原理是將語音轉(zhuǎn)換成用戶可以閱讀的單詞。它采用模式識別作為基本框架,分為四個部分:數(shù)據(jù)預處理、特征提取、模型訓練和測試應用。語音識別一般可以分為兩個模塊,訓練模塊和識別模塊。訓練模塊主要學習聲音,并將學習結(jié)果存儲到語音數(shù)據(jù)庫中。在識別過程中,在語音數(shù)據(jù)庫中搜索當前聽到的聲音的相應語義或含義。根據(jù)目前主流的語音識別算法,識別模塊對接收到的語音信號進行特征參數(shù)分析(即特征提取),并根據(jù)既定的判斷條件和標準與語音數(shù)據(jù)庫中的數(shù)據(jù)進行比較,最終通過比較得出語音識別結(jié)果。
主要分類
關(guān)鍵詞識別:關(guān)鍵詞識別是從連續(xù)無限的語音中識別給定數(shù)量的單詞。這些單詞可以包括許多其他單詞和各種其他非語音現(xiàn)象,例如咳嗽、呼吸、蹣跚、音樂、關(guān)門、背景噪聲和傳輸噪聲。關(guān)鍵詞識別包括兩個基本內(nèi)容:關(guān)鍵詞檢測和關(guān)鍵詞確認。關(guān)鍵詞檢測是識別輸入語音是否包含預先設(shè)定的關(guān)鍵詞,關(guān)鍵詞確認是判斷輸入語音是否為假設(shè)關(guān)鍵詞。目前,隨著語音分析和處理理論的進一步發(fā)展,關(guān)鍵詞識別的應用領(lǐng)域越來越廣泛,如聲控電話交換機、語音撥號系統(tǒng)、預約系統(tǒng)、醫(yī)療服務(wù)、搜索引擎等。
基于聲學模型的識別(ACM):聲學模型是使用機器學習算法處理音頻,訓練語音特征和語音識別模型,然后識別輸入語音。聲學模型將語音數(shù)據(jù)映射成一組概率分布,用于表示語音信號中語音特征的出現(xiàn)概率。這些概率分布用于在語音識別中計算對應于語音信號的文本。對于給定的語音信號,聲學模型可以計算它與某個文本之間的相似性或距離度量,從而確定最有可能對應的文本,即識別的語音文本。
基于語言模型的識別:語言模型主要基于統(tǒng)計模型和深度學習算法,用于解決語音識別中潛在的歧義問題,提高語音識別的準確率。這項技術(shù)主要分為兩個步驟:訓練和分類。在訓練階段,輸入大量的腳本和標記的語言類型,使系統(tǒng)能夠?qū)W習不同語言的特征以及每種語言中出現(xiàn)的單詞組合。通過計算每種語言的詞頻和序列頻率,建立模型。語言模型使用基于N-gram的統(tǒng)計模型,其中N表示使用前n-1個單詞來預測下一個單詞的模型。在分類階段,給定一段文本,由模型進行推斷,并計算指定文本屬于每種語言的可能性。最后選擇概率最大的語言作為答案。判斷結(jié)果可以通過計算給定文本與每個語言模型之間的相似度來獲得,通常使用余弦相似度等方法。
端到端語音識別:這種語音識別技術(shù)不需要將語音信號轉(zhuǎn)換為微小的聲學特征,而是直接將整個語音信號輸入到深度學習模型中,從而實現(xiàn)語音識別。它使用單一模型直接將音頻映射到字符或單詞,這更容易構(gòu)建和訓練。端到端模型的所有參數(shù)都可以隨著訓練的進展進行同步調(diào)整和優(yōu)化,從而避免使用不同損失函數(shù)導致的訓練差異。
混合語音識別(混合語音識別):混合語音識別結(jié)合了聲學模型和語言模型,還使用了混合算法模型,如HMM和DNN。混合語音識別主要包括前端音頻處理和后端語音識別兩個階段。在前端音頻處理中,主要對輸入音頻信號進行預處理,并對原始音頻信號進行濾波和去噪以提高錄音質(zhì)量。在后端語音識別中,主要使用兩種或兩種以上的語音識別技術(shù)來提高識別的準確性和魯棒性。
主要應用
語音助手:蘋果與語音識別廠商合作后,手機實現(xiàn)了語音識別功能,這就成了我們今天熟悉的Siri。到了2015年9月,Siri已經(jīng)可以擺脫之前的手動開啟模式,支持語音指令“hi Siri”開啟,這在一定程度上解放了她的雙手。Siri變得越來越智能,甚至一度出現(xiàn)了“所有人都在戲弄”Siri的情況。它可以為用戶提供語音控制操作方式,方便用戶使用設(shè)備或獲取信息。
語音搜索:用戶通過語音搜索所需信息。例如,基于Android系統(tǒng)作為應用程序開發(fā)平臺,使用Google語音識別技術(shù)來實現(xiàn)語音搜索和語音打開手機軟件的功能。開發(fā)人員還實現(xiàn)了常用網(wǎng)站的鏈接和手機軟件的列表顯示,使用戶更容易上網(wǎng)和娛樂。通過實機測試,實現(xiàn)了語音搜索和語音打開手機軟件的功能,性能穩(wěn)定可靠,實用性強。
語音翻譯:通過語音輸入要翻譯的文本,然后翻譯軟件通過語音識別技術(shù)識別用戶的語音,并將語音翻譯成目標語言的文本。例如,2018年,谷歌將機器中使用的Seq-Seq方法應用于語音識別,并提出了自注意和多頭模型,取得了良好的識別和翻譯效果。
語音識別密碼:在銀行、電子商務(wù)、社交媒體等領(lǐng)域,用戶可以通過語音進行身份驗證或支付。例如,使用基于統(tǒng)計模型的隱馬爾可夫模型(HMM)來描述語音模型,訓練語音模型庫,使用帶有模板匹配的Viterbi算法進行語音識別。所設(shè)計的語音密碼鎖系統(tǒng)將語音密碼和鍵盤密碼技術(shù)相結(jié)合,保證了系統(tǒng)的安全性。通過測試,該系統(tǒng)對特定人的語音識別率可達98%。
口聲控制:在智能家居領(lǐng)域,用戶可以通過語音控制家用電器、打開電視、調(diào)節(jié)空調(diào)溫度等操作。阿里巴巴的天貓精靈智能音響可以通過天貓精靈的召喚語言喚醒,然后說出相應的控制語句來控制家用電器的動作。
醫(yī)學領(lǐng)域:通過智能語音識別技術(shù)與醫(yī)療場景的結(jié)合應用,輔助臨床工作,提高工作效率,實現(xiàn)醫(yī)患溝通,實現(xiàn)語音識別病歷輸入和醫(yī)囑。例如,基于“語音云”開發(fā)了醫(yī)療語音輸入助手,使醫(yī)生在使用鍵盤書寫病歷時可以一鍵啟動語音輸入,提高了病歷輸入效率,并針對識別過程中出現(xiàn)的多字、漏字、識別錯誤等問題建立了各科室語料庫,優(yōu)化了醫(yī)療語言模型并增加了方言識別功能,解決了醫(yī)生記錄慢、電子病歷應用推廣難等問題。
教育領(lǐng)域:語音識別技術(shù)也廣泛應用于口語測評、學習記錄、智能講座平臺、多媒體信息檢索等。語音技術(shù)的發(fā)展將進一步助力外語和語言教學,提高教學效率和教學效果,推動人工智能技術(shù)的整體發(fā)展。與傳統(tǒng)的圖形編程和文本編程相比,利用語音識別開發(fā)的基于教育機器人的語音控制自動編程系統(tǒng)更加智能、易操作、易學,達到了寓教于樂的編程和學習目的。