j9游會真人游戲第一品牌:語音識別芯片技術的原理
作者:j9九游會發(fā)布時間:2025-01-09
語音識別技術的原理
定義:語音識別技術(ASR Automatic Speech Recognition),讓智能設備聽懂人類的語音。語音識別的工作流程,可以分為三大部分:前端語音處理、模型訓練、后端識別處理
1、前端處理
前端處理,即將聲音的模擬信號,轉換成機器能處理的數字信號,并對信號進行優(yōu)化。語音識別的硬件鏈路通常是:MIC 麥克風—>ADC/PDM(模數轉化)——>Codec/DSP/NPU(信號優(yōu)化和處理)。其中麥克風/ADC/PDM為前段處理部分,DSP/NPU的部分(例如降噪算法)也屬于前段處理。
MIC 麥克風 采集外部聲音的硬件,關鍵參數是靈敏度dB和信噪比SNR九游會j9官網真人游戲第一品牌。 按信號輸出分:模擬麥和數字麥,數字麥是在模擬麥的基礎上內置ADC,直接對外輸出數字信號。
按產品形態(tài)分:駐極體ECM和硅麥MEMS,前者工藝成熟成本低,后者體積小,常見于手機應用。
前端處理的原理簡化描述:

音頻采集:通過麥克風,將聲波轉換為模擬電信號,再通過ADC轉換為數字信號
預處理:靜音切除 VAD、分偵加窗、降噪(主動降噪ANC)、預加重等
特征提?。簣D中選的是主流的MFCC,其他還有LPCC,PLP等,選取后續(xù)可以匹配的特征點
2. 模型訓練
模型可以簡單理解為“字典”,機器可以查字典,去比對輸入的信息,找出正確答案近幾年的模型訓練發(fā)展,開始納入語言模型,讓機器能翻譯出人類語言,進而達到更準確的識別效果。
聲學模型訓練:
聲學模型是識別系統(tǒng)的底層模型,是語音識別系統(tǒng)中關鍵的部分,算法主要集中優(yōu)化該部分。
聲學模型是通過大量的語音收集,并根據特定的算法規(guī)則獲得特征值,用于后面的識別比對。
語言模型訓練:
語言模型是用來計算一個句子出現(xiàn)概率的概率模型,是語音識別中的"字典"
它需要綜合三個層次的知識:字典,語法,句法,讓機器能更好理解人類的自然語言。
3、后端識別處理 (語音解碼)
應用中實時將人聲采集進來,跟“聲學模型”和“語言模型”匹配比較,并輸出正確的識別結果該步驟跟模型建立有深度關聯(lián),有時將"模型建立"歸類到后端識別處理中,與前端處理對應識別準確率和響應速度,綜合取決于算法優(yōu)化,硬件主頻,以及前端信號的降噪能力(分離人聲)。
按照市場主流的觀點,我們將語音識別區(qū)分為在線和離線:
在線語音識別,即大詞匯量連續(xù)語音識別系統(tǒng) ,擁有智能交互的特點
典型應用:智能音箱、智能手機助手、在線翻譯、智能客服等
離線語音識別,即小詞匯量、低成本的語音識別系統(tǒng),應用場景相對單一
典型應用:智能家電、語音遙控器、智能玩具、車載聲控、智能家居等
離線和在線最大的區(qū)別在于,在線語音識別需要聯(lián)網,實際的語音識別過程在云端或服務器(高性能處理器和大容量數據存儲),需確保網絡連接穩(wěn)定和通暢。離線則無需聯(lián)網和任何其他外部設備的支持,上電即可使用,語音識別工作發(fā)生在本地設備(低成本MCU/NPU/DSP和極小存儲容量)。離線的存在,可以簡單視為在線語音技術的簡化版,將場景單一化減少需要識別的對象,實現(xiàn)硬件成本最低化,更符合廣大消費者的價格需求。j9游會真人游戲第一品牌