日本一级不卡一二三区,日本一区二区三区视频,日本一道本一二三区视频

  1. <th id="bkwdt"><legend id="bkwdt"></legend></th>
    <th id="bkwdt"><strike id="bkwdt"></strike></th>

    <dl id="bkwdt"></dl>
    <button id="bkwdt"></button>
    帝國網絡服務有限公司專注中小企業全網營銷、SEO推廣需求,解決品牌曝光產品推廣難題,
    終會贏得SEM&SEO外包企業選擇與信任。
    當前位置:首頁 > 百度優化 > 百度SEO>[百度seo]AI語音識別中聲學模型得分計算優化方法

    [百度seo]AI語音識別中聲學模型得分計算優化方法

    來源:SEO官網發表時間:2019-03-20瀏覽:10
    下一篇:[baiduSEO]網站優化時如何讓百度快速收錄網站

      摘要

      語音是人們溝通交流最直接、最自然的交互方式。自計算機問世以來,人們就一直希望可以通過語音實現人和計算機之間的交互,而語音識別技術,目標就是通過把人類的語音中的詞匯內容轉換為相應的文本,架起了人機交互的橋梁。對于一個語音識別系統,速度和精度是兩個核心指標,直接決定著系統是否可用。其中,識別速度的提升意味著可以降低成本,同時提供更多的語音服務,一直是語音識別技術研究的重點方向。在語音識別系統中,聲學模型得分的運算量一般會達到整個系統的40%-70%,因此也是識別速度優化的重點模塊。本文就來講講如何優化聲學模型得分計算。

      基本概念介紹

      特征向量:語音數據在識別前首先會被分成多幀數據,一般幀長為25毫秒,幀移為10毫秒。每一幀語音數據經過特征提取之后,會生成一幀特征,稱之為一個特征向量或特征矢量 ,其中n為特征向量的維數。

      HMM state:語音識別中的建模單元,簡稱為state,使用混合高斯模型(GMM)模型描述,每個mixture服從正態分布其中為均值向量,為協方差矩陣,是對角陣。

      似然值:特征向量O在state上的聲學模型得分。其計算步驟分為兩步:

      a)計算O在每個mixture分量上的似然值,其計算公式為:

      

      其中,j表示state的第j個mixture分量, 是常量,O在第j個mixture分量上的似然值。

      

      其中,m為state中mixture分量的個數, 為O在state上的似然值,等于各mixture的似然值在log域的相加,因而這步被稱為logAdd操作。

      優化方法

      下面先介紹三種無損識別精度的優化方法:

      1、代碼加速:使用SSE指令或者intel IPP加速庫

      這種方法利用編程語言指令集的優化,通過減少CPU需要操作的指令數來達到加速。其中的intel IPP加速庫直接提供了一套計算似然值的函數庫,加速效果非常明顯,可以達到40%。

      2、硬件加速:使用GPU加速

      GPU一直以其強大的計算能力著稱,十分適合矩陣相乘這類計算密集型的運算。為了能充分發揮GPU的加速效果,我們需要對似然值的計算公式略作改寫:

      

      經過轉換之后,每個mixture都可以用一個行向量表示,m個mixture可以組成一個大矩陣M = (A1,A2,…,Am)T,同理n幀的特征矢量也可以組成一個矩陣F = (Z1,Z2,…,Zn)。這樣同時求解多個mixture在多幀上的似然值就可以用兩個矩陣的乘積來實現。而每個state各mixture分量的logAdd過程相互獨立,因此這一步也可以在GPU上并行計算。一般情況下,GPU可以達到100倍以上的加速效果,也就意味著GPU可以將原來在語音識別中最耗時的聲學得分計算所占比重降到低于1%。由于這種方法需要一個額外的硬件設備GPU,價格比較昂貴,因而并沒有被大規模使用。

      3、  CPU cache加速:一次計算state在多幀特征上的似然值

      這種方法利用了語音識別的特點,在識別過程中一旦某個state被激活之后,在后面的連續幾幀中這個state極有可能仍會處于活躍狀態,即在處理后面的特征時還需要計算這個state的似然值。那么我們可以在第一次激活state時,同時計算這個state在從當前幀開始的連續多幀,也不會導致過多不必要的計算。另一方面卻可以利用CPU cache,不用多次從內存中加載state的模型參數到CPU中,從而達到加速的目的。這種方法約有10%的加速效果,一般配合方法1使用。

      上面介紹的三種方法,都是對聲學模型得分進行了精確計算,因此不會帶來任何識別精度的下降。如果想做進一步優化,就需要對state的似然值計算公式做些調整。

      1、動態高斯選擇法

      其思想是用似然值最大的mixture分量來近似logAdd:

      

      那么如何來選出這個最大值呢?大家可能認為這還不簡單?把每個mixture的似然值先計算出來,然后選個最大值就可以了。那接下來我們看看有沒有更好的方法?仔細分析mixture似然值的計算公式:

      

      我們會發現,這是一個隨i增加而遞減的函數。我們可以先計算出 ,在計算其他的時,在i從1增加的n的過程中,我們可以判斷當前已經計算出來的值是否比 小,如果已經比 小,那們這個mixture一定不是最大的,因為隨著i的增加,這個值會不斷減小,因而這個mixture就可以直接跳過,從而減少計算量。這種方法約有15%的加速效果,但是會帶來0.5個點左右的識別率損失

    日本一级不卡一二三区,日本一区二区三区视频,日本一道本一二三区视频