亚洲天堂av网_久久精品欧美一区二区三区不卡_亚洲欧美一级_欧美成人合集magnet

知名百科  > 所屬分類  >  其他科技   

語音識別技術

語音識別技術又稱自動語音識別(Automatic Speech Recognition,ASR),是以語音為研究對象,通過語音信號處理和模式識別,使機器自動識別和理解口語或文字的技術。語音識別技術通常使用計算機程序。通過分析語音信號的特征,如頻率、音調、語速、語調等。,聲學建模、語言模型、語音和自然語言之間的對齊和解碼被進一步處理,最終輸出可理解的文本結果。

語音技術的研究正式進入起步階段。語音識別是一門涉及面很廣的交叉學科,與聲學、語音學、語言學、信息論、模式識別理論和神經生物學等學科密切相關。它正逐漸成為信息技術中人機接口的關鍵技術。語音識別技術和語音合成技術的結合,使得人們可以在不使用鍵盤等輸入工具的情況下,通過語音命令進行相應的操作。

語音識別是人工智能領域相對成熟的技術,已廣泛應用于智能助理、語音識別交互、智能家居、金融交易等領域。隨著移動互聯網的發展,基于Deep Peak2和Deep Fully等語言模型的語音識別技術已經廣泛應用于各種產品中。

目錄

發展歷史 編輯本段

20世紀50年代,貝爾實驗室實現了世界上第一個可以識別10個英文數字的語音識別系統,即Audry系統,標志著語音識別研究的開始。

20世紀60年代,隨著計算機技術的發展,開始創建使用DP(動態編程)和LP(線性預測)分析語音信號的聲學模型。通過這個模型,人們將語音信號轉換成數字形式供計算機處理。

1970年,前蘇聯的維利奇科和扎戈魯科將模式識別的概念引入語音識別。同年,板倉提出了線性預測編碼(LPC)技術,并將其應用于語音識別。1978年,在前蘇聯科學家Vintsyuk的工作基礎上,日本人Sakoe和Chiba成功地使用動態編程算法在時間軸上對齊了兩個不同長度的語音,這就是我們現在經常提到的動態時間彎曲(DTW)。該算法將時間正則化和距離計算有機地結合起來,解決了不同時長的語音匹配問題。

在1970年至1980年期間,語音識別的研究從針對特定人的小規模獨立單詞語音識別轉向獨立于說話人的連續語音識別。

20世紀80年代,來自IBM的工程師耶利內克和他的團隊開發了一種聲控打字機。一個名為Tangora的實驗性語音識別系統使用IBM PC AT來識別語音并將其打印在紙上。每個說話者必須單獨訓練打字機,使其能夠識別自己的聲音,并在每兩個單詞之間停頓一下。到20世紀80年代中期,Tangora識別的詞匯量達到了2萬個單詞,這證明了統計方法的有效性。

1989年,Rabiner提出了隱馬爾可夫模型(HMM),將語音識別的研究從模板匹配方法轉變為基于概率統計的統計建模。

自2000年以來,人機語音交互成為研究的熱點。研究重點是即興口語和自然口語對話的識別和理解,以及多語種同聲語音翻譯。

2011年,蘋果推出了智能語音系統Siri,它可以通過語音接收用戶的需求,讓用戶跳過復雜的操作步驟,實現自己的需求,從而改變了人們與可計算設備的溝通方式。

2012年,谷歌首次將深度神經網絡用于語音識別領域并取得重大突破。該技術可以大大提高語音識別的準確率和速度,使語音識別可以廣泛應用于物聯網、智能家居、語音助手等領域。

2017年,百度提出了Deep Speech2和Deep Peak2等端到端模型。同年,谷歌將機器翻譯中使用的Seq-Seq方法應用于語音識別,并提出了自注意和多頭結構,取得了良好的識別效果。谷歌還在2018年的Interspeech大會上提出了LAS(Listen Attend and Spell)在線識別產品。。同年,中國科大訊飛公司提出了深度卷積神經網絡(DFCNN),阿里巴巴提出并開放了基于雙向LSTM的深度前饋順序存儲網絡(DFSMN)。這些模型和技術推動了語音識別技術的發展。

工作原理 編輯本段

語音識別的原理是將語音轉換成用戶可以閱讀的單詞。它采用模式識別作為基本框架,分為四個部分:數據預處理、特征提取、模型訓練和測試應用。語音識別一般可以分為兩個模塊,訓練模塊和識別模塊。訓練模塊主要學習聲音,并將學習結果存儲到語音數據庫中。在識別過程中,在語音數據庫中搜索當前聽到的聲音的相應語義或含義。根據目前主流的語音識別算法,識別模塊對接收到的語音信號進行特征參數分析(即特征提取),并根據既定的判斷條件和標準與語音數據庫中的數據進行比較,最終通過比較得出語音識別結果。

主要分類 編輯本段

關鍵詞識別:關鍵詞識別是從連續無限的語音中識別給定數量的單詞。這些單詞可以包括許多其他單詞和各種其他非語音現象,例如咳嗽、呼吸、蹣跚、音樂、關門、背景噪聲和傳輸噪聲。關鍵詞識別包括兩個基本內容:關鍵詞檢測和關鍵詞確認。關鍵詞檢測是識別輸入語音是否包含預先設定的關鍵詞,關鍵詞確認是判斷輸入語音是否為假設關鍵詞。目前,隨著語音分析和處理理論的進一步發展,關鍵詞識別的應用領域越來越廣泛,如聲控電話交換機、語音撥號系統、預約系統、醫療服務、搜索引擎等。

語音識別技術語音識別技術

基于聲學模型的識別(ACM):聲學模型是使用機器學習算法處理音頻,訓練語音特征和語音識別模型,然后識別輸入語音。聲學模型將語音數據映射成一組概率分布,用于表示語音信號中語音特征的出現概率。這些概率分布用于在語音識別中計算對應于語音信號的文本。對于給定的語音信號,聲學模型可以計算它與某個文本之間的相似性或距離度量,從而確定最有可能對應的文本,即識別的語音文本。

基于語言模型的識別:語言模型主要基于統計模型和深度學習算法,用于解決語音識別中潛在的歧義問題,提高語音識別的準確率。這項技術主要分為兩個步驟:訓練和分類。在訓練階段,輸入大量的腳本和標記的語言類型,使系統能夠學習不同語言的特征以及每種語言中出現的單詞組合。通過計算每種語言的詞頻和序列頻率,建立模型。語言模型使用基于N-gram的統計模型,其中N表示使用前n-1個單詞來預測下一個單詞的模型。在分類階段,給定一段文本,由模型進行推斷,并計算指定文本屬于每種語言的可能性。最后選擇概率最大的語言作為答案。判斷結果可以通過計算給定文本與每個語言模型之間的相似度來獲得,通常使用余弦相似度等方法。

端到端語音識別:這種語音識別技術不需要將語音信號轉換為微小的聲學特征,而是直接將整個語音信號輸入到深度學習模型中,從而實現語音識別。它使用單一模型直接將音頻映射到字符或單詞,這更容易構建和訓練。端到端模型的所有參數都可以隨著訓練的進展進行同步調整和優化,從而避免使用不同損失函數導致的訓練差異。

混合語音識別(混合語音識別):混合語音識別結合了聲學模型和語言模型,還使用了混合算法模型,如HMM和DNN。混合語音識別主要包括前端音頻處理和后端語音識別兩個階段。在前端音頻處理中,主要對輸入音頻信號進行預處理,并對原始音頻信號進行濾波和去噪以提高錄音質量。在后端語音識別中,主要使用兩種或兩種以上的語音識別技術來提高識別的準確性和魯棒性。

主要應用 編輯本段

語音助手:蘋果與語音識別廠商合作后,手機實現了語音識別功能,這就成了我們今天熟悉的Siri。到了2015年9月,Siri已經可以擺脫之前的手動開啟模式,支持語音指令“hi Siri”開啟,這在一定程度上解放了她的雙手。Siri變得越來越智能,甚至一度出現了“所有人都在戲弄”Siri的情況。它可以為用戶提供語音控制操作方式,方便用戶使用設備或獲取信息。

語音搜索:用戶通過語音搜索所需信息。例如,基于Android系統作為應用程序開發平臺,使用Google語音識別技術來實現語音搜索和語音打開手機軟件的功能。開發人員還實現了常用網站的鏈接和手機軟件的列表顯示,使用戶更容易上網和娛樂。通過實機測試,實現了語音搜索和語音打開手機軟件的功能,性能穩定可靠,實用性強。

語音翻譯:通過語音輸入要翻譯的文本,然后翻譯軟件通過語音識別技術識別用戶的語音,并將語音翻譯成目標語言的文本。例如,2018年,谷歌將機器中使用的Seq-Seq方法應用于語音識別,并提出了自注意和多頭模型,取得了良好的識別和翻譯效果。

語音識別密碼:在銀行電子商務、社交媒體等領域,用戶可以通過語音進行身份驗證或支付。例如,使用基于統計模型的隱馬爾可夫模型(HMM)來描述語音模型,訓練語音模型庫,使用帶有模板匹配的Viterbi算法進行語音識別。所設計的語音密碼鎖系統將語音密碼和鍵盤密碼技術相結合,保證了系統的安全性。通過測試,該系統對特定人的語音識別率可達98%。

口聲控制:在智能家居領域,用戶可以通過語音控制家用電器、打開電視、調節空調溫度等操作。阿里巴巴的天貓精靈智能音響可以通過天貓精靈的召喚語言喚醒,然后說出相應的控制語句來控制家用電器的動作。

醫學領域:通過智能語音識別技術與醫療場景的結合應用,輔助臨床工作,提高工作效率,實現醫患溝通,實現語音識別病歷輸入和醫囑。例如,基于“語音云”開發了醫療語音輸入助手,使醫生在使用鍵盤書寫病歷時可以一鍵啟動語音輸入,提高了病歷輸入效率,并針對識別過程中出現的多字、漏字、識別錯誤等問題建立了各科室語料庫,優化了醫療語言模型并增加了方言識別功能,解決了醫生記錄慢、電子病歷應用推廣難等問題。

教育領域:語音識別技術也廣泛應用于口語測評、學習記錄、智能講座平臺、多媒體信息檢索等。語音技術的發展將進一步助力外語和語言教學,提高教學效率和教學效果,推動人工智能技術的整體發展。與傳統的圖形編程和文本編程相比,利用語音識別開發的基于教育機器人的語音控制自動編程系統更加智能、易操作、易學,達到了寓教于樂的編程和學習目的。

附件列表


0

詞條內容僅供參考,如果您需要解決具體問題
(尤其在法律、醫學等領域),建議您咨詢相關領域專業人士。

如果您認為本詞條還有待完善,請 編輯

上一篇 問卷星    下一篇 MAC地址

同義詞

暫無同義詞