所以最大後驗機率估計可以看作是規則化的最大概似估計。 聲學特徵的提取既是一個訊息大振幅壓縮的過程,也是一個訊號解卷過程,目的是使圖形劃分器能更好地劃分。 儘管多年來研究人員一直嘗試將「聽寫機」推廣,語音辨識技術在目前還無法支援無限領域,無限說話人的聽寫機應用。
由於計算量太大,N一般取值不會很大,常用的是二元語法(Bi-Gram)和三元語法(Tri-Gram)。 當應用簡單知識源進行了前向的Viterbi搜尋後,搜尋過程中得到的前向機率恰恰可以用在後向搜尋的目標函數的計算中,因而可以使用啟發式的A演算法進行後向搜尋,經濟地搜尋出N條候選。 與說話人辨識(英語:Speaker recognition)及說話人確認不同,後者嘗試辨識或確認發出語音的說話人而非其中所包含的詞彙內容。 語音辨識2023 語音系統中的雜訊,包括環境雜訊和錄音過程加入的電子雜訊。
語音辨識: 系統實現
訓練時對每個基元用前向後向演算法獲得模型參數,辨識時,將基元串接成詞,詞間加上靜音模型並引入語言模型作為詞間轉移機率,形成迴圈結構,用Viterbi演算法進行解碼。 針對漢語易於分割的特點,先進行分割再對每一段進行解碼,是用以提高效率的一個簡化方法。 語音辨識系統的效能受許多因素的影響,包括不同的說話人、說話方式、環境噪音、傳輸頻道等等。 受目前技術所限,對話系統往往是面向一個狹窄領域、詞彙量有限的系統,其題材有旅遊查詢、訂票、資料庫檢索等等。
搜尋所依據的是對公式中的聲學模型打分和語言模型打分。 在實際使用中,往往要依據經驗給語言模型加上一個高權重,並設定一個長詞懲罰分數。 N元語法:該模型基於這樣一種假設,第n個詞的出現只與前面N-1個詞相關,而與其它任何詞都不相關,整句的機率就是各個詞出現機率的乘積。 這些機率可以通過直接從語料中統計N個詞同時出現的次數得到。
語音辨識: 語言模型
語音辨識技術的最重大突破是隱含馬爾科夫模型Hidden Markov 語音辨識 Model的應用。 從Baum提出相關數學推理,經過Rabiner等人的研究,卡內基梅隆大學的李開復最終實現了第一個基於隱馬爾科夫模型的大詞彙量語音辨識系統Sphinx[4]。 統計語言模型是用機率統計的方法來揭示語言單位內在的統計規律,其中n元語法簡單有效,被廣泛使用。 以國語發音為例,我們會將一個字的發音切割成兩個部分,分別是聲母(initials)與韻母(finals)。
- 而根據聲帶振動與否,又分為清音(unvoiced:聲帶不震動)等差異,以上發音時不同的方式,在時頻圖上大多可以找到相對應的特徵,透過處理二維的時頻圖,藉由傳統影像處理的方式,達到語音辨識的目的。
- Viterbi:基於動態規劃的Viterbi演算法在每個時間點上的各個狀態,計算解碼狀態序列對觀察序列的事後機率,保留機率最大的路徑,並在每個節點記錄下相應的狀態訊息以便最後反向取得詞解碼序列。
- 導入語音指令 (例如「調高音量」) 和語音搜尋 (例如說出「巴黎的氣溫幾度?」) 功能,再搭配使用 Text-to-Speech API,在 IoT (物聯網) 應用程式中提供支援語音功能的體驗。
- 這一段被認為是平穩的分析區間稱之為影格,影格與影格之間的偏移通常取影格長的1/2或1/3。
- 語音辨識系統選擇辨識基元的要求是,有準確的定義,能得到足夠資料進行訓練,具有一般性。
- 將 IVR (互動式語音回應) 和虛擬服務專員對話功能導入客服中心,打造更強大的客戶服務系統。
Lattice-MLLR是根據解碼得到的詞網估計MLLR變換參數,詞網的潛在誤識率遠小於識別結果,因此可以使參數估計更為準確。 Lattice-MLLR的一個很大的缺點是計算量極大,較難實用。 MLLR 是一種基於變換的方法,對數據量依賴較小,常用於數據量較少的情況或進行快速自適應。 連續語音辨識中的搜尋,就是尋找一個詞模型序列以描述輸入語音訊號,從而得到詞解碼序列。
語音辨識: 語音辨識控制燈泡
這一段被認為是平穩的分析區間稱之為影格,影格與影格之間的偏移通常取影格長的1/2或1/3。 通常要對訊號進行預加重以提升高頻,對訊號加窗以避免短時語音段邊際的影響。 導入語音指令 (例如「調高音量」) 和語音搜尋 (例如說出「巴黎的氣溫幾度?」) 功能,再搭配使用 Text-to-Speech API,在 IoT (物聯網) 應用程式中提供支援語音功能的體驗。 發音時,舌頭緊貼硬腭,形成狹窄的通道,氣流通過時造成湍流發生摩擦,由此發出聲響。
由於語音辨識對當前時間點之後的情況無法預測,基於目標函數的啟發式剪枝難以應用。 語音辨識2023 由於Viterbi演算法的時齊特性,同一時刻的各條路徑對應於同樣的觀察序列,因而具有可比性,束Beam搜尋在每一時刻只保留機率最大的前若干條路徑,大振幅的剪枝提高了搜尋的效率。 這一時齊Viterbi-Beam演算法是當前語音辨識搜尋中最有效的演算法。
語音辨識: 語音調整
用HMM刻畫語音訊號需作出兩個假設,一是內部狀態的轉移只與上一狀態有關,另一是輸出值只與當前狀態(或當前的狀態轉移)有關,這兩個假設大大降低了模型的複雜度。 HMM的評估、解碼和訓練相應的演算法是前向演算法、Viterbi演算法和前向後向演算法。 上下文相關建模:協同發音,指的是一個音受前後相鄰音的影響而發生變化,從發聲機理上看就是人的發聲器官在一個音轉向另一個音時其特性只能漸變,從而使得後一個音的頻譜與其他條件下的頻譜產生差異。 上下文相關建模方法在建模時考慮了這一影響,從而使模型能更準確地描述語音,只考慮前一音的影響的稱為Bi-Phone,考慮前一音和後一音的影響的稱為Tri-Phone。
提高系統魯棒性的特徵方法包括語音增強和尋找對雜訊干擾不敏感的特徵,模型方法有並列模型組合PMC方法和在訓練中人為加入雜訊。 頻道畸變包括錄音時話筒的距離、使用不同靈敏度的話筒、不同增益的前置放大和不同的濾波器設計等等。 特徵方法有從倒譜向量中減去其長時平均值和RASTA濾波,模型方法有倒譜平移。 將 IVR (互動式語音回應) 和虛擬服務專員對話功能導入客服中心,打造更強大的客戶服務系統。
語音辨識: 模型
N-best搜尋和多遍搜尋:為在搜尋中利用各種知識源,通常要進行多遍搜尋,第一遍使用代價低的知識源,產生一個候選列表或詞候選網格,在此基礎上進行使用代價高的知識源的第二遍搜尋得到最佳路徑。 語音辨識 語音辨識2023 此前介紹的知識源有聲學模型、語言模型和音標詞典,這些可以用於第一遍搜尋。 語音辨識 為實現更進階的語音辨識或口語理解,往往要利用一些代價更高的知識源,如4階或5階的N-Gram、4階或更高的上下文相關模型、詞間相關模型、分段模型或語法分析,進行重新打分。
Viterbi:基於動態規劃的Viterbi演算法在每個時間點上的各個狀態,計算解碼狀態序列對觀察序列的事後機率,保留機率最大的路徑,並在每個節點記錄下相應的狀態訊息以便最後反向取得詞解碼序列。 Viterbi演算法在不喪失最佳解的條件下,同時解決了連續語音辨識中HMM模型狀態序列與聲學觀察序列的非線性時間對準、詞邊界檢測和詞的辨識,從而使這一演算法成為語音辨識搜尋的基本策略。 語言模型的效能通常用交叉熵和複雜度(Perplexity)來衡量。 交叉熵的意義是用該模型對文字辨識的難度,或者從壓縮的角度來看,每個詞平均要用幾個位來編碼。 複雜度的意義是用該模型表示這一文字平均的分支數,其倒數可視為每個詞的平均機率。