人的發聲器官可以分為兩個部 分,即聲道和聲帶。如果直接讓機器人理解我們說的話,難度比較大,將人類語 言轉化為機器人可以理解識別的信號,就是一個很好的途徑。如果將整個過程看 為一個信號過程的話,聲帶是發生源,聲道相當于一個諧振時的聲帶振動,可用 一個脈沖串發生器代替。發一些有聲帶振動的音時,可用一個脈沖串發生器代 替。發一些無振音的時候,因為聲帶并不振動,而是從喉管發出的,只是一般的 隨機氣流,可以用一個噪聲發生器代替。上文介紹過,聲音的強弱是變化的,用 一個增益因子K 來表示的話
通過上面的辦法,我們可以把語音信號轉化為機器人能夠理解的電信號, 那么機器人又要怎樣去理解呢?
由于人類的語言非常復雜,無論哪個民族,其詞匯量都非常大,即使是同一個 人,他的發音也隨著環境及身體情況的變化而變化。目前在大詞匯語音識別方面處 于L先地位的IBM 語音研究小組,就是在70年代開始了大詞匯語音識別研究工作 的 。AT&A 的貝爾研究所也開始了一系列有關非特定人語音識別的實驗。這一研究 歷經10年,其成果是確立了如何制作用于非特定人語音識別的標準模板的方法。
關于語音識別,表4-1介紹了三種主要模式。
將語音信號的頻譜沿著時間軸加以展開,制成頻譜圖。此法是取語音信號的頻率 特性作為比較基礎。此種方法識別精度一般,適用于對少量語音的識別,及對特定 人說話的場合
即線性預估編碼法,此法是對語音信號抽取LPC系數,然后與參考樣板的LPC系 數加以比較,計算出其間的“差距”。LPC法是模擬人的發音器官構造而設計的。因 此,LPC系數就代表發音器官腔調的不同狀態。此法也用于特定人的語音識別
此法可用于非特定人的語音識別。即要識別不同人的發音,并且對同一個人發同一 個音,每次發音也未必一致。這需要有大量的“儲存”與“比較”。此法是采用“統 籌”的理論,建立語音的狀態轉移模式。經大量的語音資料得出模式的“概率”,選 出“相似率”Z高者
語音識別系統的模型通常由聲學模型和語言模型兩部分組成,分別對應于 語音到音節概率的計算和音節到字概率的計算。在聲學模型方面,我們介紹一下 HMM 聲學模型。
HMM 聲學建模:馬爾可夫模型的概念是一個離散時域有限狀態自動機,隱 馬爾可夫模型HMM 是指這一馬爾可夫模型的內部狀態外界不可見,外界只能看 到各個時刻的輸出值。對語音識別系統,輸出值通常就是從各個幀計算而得的聲 學特征。用HMM 刻畫語音信號需作出兩個假設,一是內部狀態的轉移只與上一 狀態有關,另一是輸出值只與當前狀態(或當前的狀態轉移)有關,這兩個假設 大大降低了模型的復雜度。HMM 的打分、解碼和訓練相應的算法是前向算法、 Viterbi算法和前向后向算法。
總的來說,語音識別技術就是讓機器通過識別和理解過程把語音信號轉變 為相應的文本或命令的高技術,其技術流程圖如圖4-17所示。語音識別技術主 要包括特征提取技術、模式匹配準則及模型訓練技術三個方面。語音識別技術車 聯網也得到了充分的引用,例如在翼卡車聯網中,只需按照一鍵通客服人員口述 要求即可設置目的地直接導航,安全、便捷。語音識別技術正朝著能識別任意人 發音的方向發展。
![]() |
| 機器人底盤 Disinfection Robot 消毒機器人 講解機器人 迎賓機器人 移動機器人底盤 商用機器人 智能垃圾站 智能服務機器人 大屏機器人 霧化消毒機器人 展廳機器人 服務機器人底盤 具身智能教育機器人 智能配送機器人 導覽機器人 |