漢語(yǔ)的音節(jié)由聲母、韻母和音調(diào)構(gòu)成,其中音調(diào)信息包含在韻母中。所以,漢語(yǔ)音節(jié)結(jié)構(gòu)可以簡(jiǎn)化為:聲母+韻母。漢語(yǔ)中有409個(gè)無調(diào)音節(jié),約1300個(gè)有調(diào)音節(jié)。漢字與漢語(yǔ)音節(jié)并不是一一對(duì)應(yīng)的。一個(gè)漢字可以對(duì)應(yīng)多個(gè)音節(jié),一個(gè)音節(jié)可對(duì)應(yīng)多個(gè)漢字,例如:和——héhèhuóhuòhútián——填甜語(yǔ)音識(shí)別過程是個(gè)復(fù)雜的過程,但其終任務(wù)歸結(jié)為,找到對(duì)應(yīng)觀察值序列O的可能的詞序列W^。按貝葉斯準(zhǔn)則轉(zhuǎn)化為:其中,P(O)與P(W)沒有關(guān)系,可認(rèn)為是常量,因此P(W|O)的*大值可轉(zhuǎn)換為P(O|W)和P(W)兩項(xiàng)乘積的*大值,di一項(xiàng)P(O|W)由聲學(xué)模型決定,第二項(xiàng)P(W)由語(yǔ)言模型決定。為了讓機(jī)器識(shí)別語(yǔ)音,首先提取聲學(xué)特征,然后通過解碼器得到狀態(tài)序列,并轉(zhuǎn)換為對(duì)應(yīng)的識(shí)別單元。一般是通過詞典將音素序列(如普通話的聲母和韻母),轉(zhuǎn)換為詞序列,然后用語(yǔ)言模型規(guī)整約束,后得到句子識(shí)別結(jié)果。例如,對(duì)"天氣很好"進(jìn)行詞序列、音素序列、狀態(tài)序列的分解,并和觀察值序列對(duì)應(yīng)。其中每個(gè)音素對(duì)應(yīng)一個(gè)HMM,并且其發(fā)射狀態(tài)(深色)對(duì)應(yīng)多幀觀察值。人的發(fā)音包含雙重隨機(jī)過程,即說什么不確定。怎么說也不確定,很難用簡(jiǎn)單的模板匹配技術(shù)來識(shí)別。更合適的方法是用HMM這種統(tǒng)計(jì)模型來刻畫雙重隨機(jī)過程。在另一個(gè)視頻中走得快,或者即使在一次觀察過程中有加速和減速,也可以檢測(cè)到行走模式的相似性。海南安卓語(yǔ)音識(shí)別
作為人機(jī)交互領(lǐng)域重要的研究對(duì)象,語(yǔ)音識(shí)別技術(shù)已經(jīng)成為信息社會(huì)不可或缺的組成部分。目前基于在線引擎和語(yǔ)音芯片實(shí)現(xiàn)的語(yǔ)音技術(shù)方案,其適用性和使用成本均限制了技術(shù)的應(yīng)用和推廣。通過對(duì)離線語(yǔ)音識(shí)別引擎的研究,結(jié)合特定領(lǐng)域內(nèi)的應(yīng)用特點(diǎn),提出一套適用性強(qiáng),成本較低的語(yǔ)音識(shí)別解決方案,可以在離線的網(wǎng)絡(luò)環(huán)境中,實(shí)現(xiàn)非特定人的連續(xù)語(yǔ)音識(shí)別功能。根據(jù)本方案設(shè)計(jì)語(yǔ)音撥號(hào)軟件,并對(duì)語(yǔ)音撥號(hào)軟件的功能進(jìn)行科學(xué)的測(cè)試驗(yàn)證。語(yǔ)音識(shí)別技術(shù),又稱為自動(dòng)語(yǔ)音識(shí)別(AutomaticSpeechRecognition,ASR),它是以語(yǔ)音為研究對(duì)象,通過語(yǔ)音信號(hào)處理和模式識(shí)別讓機(jī)器理解人類語(yǔ)言,并將其轉(zhuǎn)換為計(jì)算機(jī)可輸入的數(shù)字信號(hào)的一門技術(shù)。語(yǔ)音識(shí)別技術(shù)將繁瑣的輸入勞動(dòng)交給機(jī)器處理,在解放人類雙手的同時(shí),還可以有效提高人機(jī)交互效率,信息化高度發(fā)達(dá),已經(jīng)成為信息社會(huì)不可或缺的組成部分。語(yǔ)音識(shí)別引擎是ASR技術(shù)的**模塊,它可以工作在識(shí)別模式和命令模式。在識(shí)別模式下,引擎系統(tǒng)在后臺(tái)提供詞庫(kù)和識(shí)別模板,用戶無需對(duì)識(shí)別語(yǔ)法進(jìn)行改動(dòng),根據(jù)引擎提供的語(yǔ)法模式即可完成既定的人機(jī)交互操作;但在命令模式下,用戶需要構(gòu)建自己的語(yǔ)法詞典,引擎系統(tǒng)根據(jù)用戶構(gòu)建的語(yǔ)法詞典。河北語(yǔ)音識(shí)別庫(kù)多人語(yǔ)音識(shí)別及離線語(yǔ)音識(shí)別也是當(dāng)前需要重點(diǎn)解決的問題。
DTW)技術(shù)基本成熟,特別提出了矢量量化(Vec?torQuantization,VQ)和隱馬爾可夫模型(HiddenMar?kovModel,HMM)理論。20世紀(jì)80年代,語(yǔ)音識(shí)別任務(wù)開始從孤立詞、連接詞的識(shí)別轉(zhuǎn)向大詞匯量、非特定人、連續(xù)語(yǔ)音的識(shí)別,識(shí)別算法也從傳統(tǒng)的基于標(biāo)準(zhǔn)模板匹配的方法轉(zhuǎn)向基于統(tǒng)計(jì)模型的方法。在聲學(xué)模型方面,由于HMM能夠很好的描述語(yǔ)音時(shí)變性和平穩(wěn)性,開始被應(yīng)用于大詞匯量連續(xù)語(yǔ)音識(shí)別(LargeVocabularyContinousSpeechRecognition,LVCSR)的聲學(xué)建模;在語(yǔ)言模型方面,以N元文法的統(tǒng)計(jì)語(yǔ)言模型開始應(yīng)用于語(yǔ)音識(shí)別系統(tǒng)。在這一階段,基于HMM/VQ、HMM/高斯混合模型、HMM/人工神經(jīng)網(wǎng)絡(luò)的語(yǔ)音建模方法開始應(yīng)用于LVCSR系統(tǒng),語(yǔ)音識(shí)別技術(shù)取得新突破。20世紀(jì)90年代以后,伴隨著語(yǔ)音識(shí)別系統(tǒng)走向?qū)嵱没Z(yǔ)音識(shí)別在細(xì)化模型的設(shè)計(jì)、參數(shù)提取和優(yōu)化、系統(tǒng)的自適應(yīng)方面取得較大進(jìn)展。同時(shí),人們更多地關(guān)注話者自適應(yīng)、聽覺模型、快速搜索識(shí)別算法以及進(jìn)一步的語(yǔ)言模型的研究等課題。此外,語(yǔ)音識(shí)別技術(shù)開始與其他領(lǐng)域相關(guān)技術(shù)進(jìn)行結(jié)合,以提高識(shí)別的準(zhǔn)確率,便于實(shí)現(xiàn)語(yǔ)音識(shí)別技術(shù)的產(chǎn)品化。怎么構(gòu)建語(yǔ)音識(shí)別系統(tǒng)?語(yǔ)音識(shí)別系統(tǒng)構(gòu)建總體包括兩個(gè)部分:訓(xùn)練和識(shí)別。
還可能存在語(yǔ)種混雜現(xiàn)象,如中英混雜(尤其是城市白領(lǐng))、普通話與方言混雜,但商業(yè)機(jī)構(gòu)在這方面的投入還不多,對(duì)于中英混雜語(yǔ)音一般*能識(shí)別簡(jiǎn)單的英文詞匯(如"你家Wi-Fi密碼是多少"),因此如何有效提升多語(yǔ)種識(shí)別的準(zhǔn)確率,也是當(dāng)前語(yǔ)音識(shí)別技術(shù)面臨的挑戰(zhàn)之一。語(yǔ)音識(shí)別建模方法語(yǔ)音識(shí)別建模方法主要分為模板匹配、統(tǒng)計(jì)模型和深度模型幾種類型,以下分別介紹DTW、GMM-HMM、DNN-HMM和端到端模型。往往會(huì)因?yàn)檎Z(yǔ)速、語(yǔ)調(diào)等差異導(dǎo)致這個(gè)詞的發(fā)音特征和時(shí)間長(zhǎng)短各不相同。這樣就造成通過采樣得到的語(yǔ)音數(shù)據(jù)在時(shí)間軸上無法對(duì)齊的情況。如果時(shí)間序列無法對(duì)齊,那么傳統(tǒng)的歐氏距離是無法有效地衡量出這兩個(gè)序列間真實(shí)的相似性的。而DTW的提出就是為了解決這一問題,它是一種將兩個(gè)不等長(zhǎng)時(shí)間序列進(jìn)行對(duì)齊并且衡量出這兩個(gè)序列間相似性的有效方法。DTW采用動(dòng)態(tài)規(guī)劃的算法思想,通過時(shí)間彎折,實(shí)現(xiàn)P和Q兩條語(yǔ)音的不等長(zhǎng)匹配,將語(yǔ)音匹配相似度問題轉(zhuǎn)換為**優(yōu)路徑問題。DTW是模板匹配法中的典型方法,非常適合用于小詞匯量孤立詞語(yǔ)音識(shí)別系統(tǒng)。但DTW過分依賴端點(diǎn)檢測(cè),不適合用于連續(xù)語(yǔ)音識(shí)別,DTW對(duì)特定人的識(shí)別效果較好。動(dòng)態(tài)時(shí)間規(guī)整(DTW),它是在馬爾可夫鏈的基礎(chǔ)上發(fā)展起來的。大多數(shù)人會(huì)認(rèn)為研發(fā)語(yǔ)音識(shí)別技術(shù)是一條艱難的道路,投入會(huì)巨大,道路會(huì)很漫長(zhǎng)。
因此在平臺(tái)服務(wù)上反倒是可以主推一些更為面向未來、有特色的基礎(chǔ)服務(wù),比如兼容性方面新興公司做的會(huì)更加徹底,這種兼容性對(duì)于一套產(chǎn)品同時(shí)覆蓋國(guó)內(nèi)國(guó)外市場(chǎng)是相當(dāng)有利的。類比過去的Android,語(yǔ)音交互的平臺(tái)提供商們其實(shí)面臨更大的挑戰(zhàn),發(fā)展過程可能會(huì)更加的曲折。過去經(jīng)常被提到的操作系統(tǒng)的概念在智能語(yǔ)音交互背景下事實(shí)上正被賦予新的內(nèi)涵,它日益被分成兩個(gè)不同但必須緊密結(jié)合的部分。過去的Linux以及各種變種承擔(dān)的是功能型操作系統(tǒng)的角色,而以Alexa的新型系統(tǒng)則承擔(dān)的則是智能型系統(tǒng)的角色。前者完成完整的硬件和資源的抽象和管理,后者則讓這些硬件以及資源得到具體的應(yīng)用,兩者相結(jié)合才能輸出終用戶可感知的體驗(yàn)。功能型操作系統(tǒng)和智能型操作系統(tǒng)注定是一種一對(duì)多的關(guān)系,不同的AIoT硬件產(chǎn)品在傳感器(深度攝像頭、雷達(dá)等)、顯示器上(有屏、無屏、小屏、大屏等)具有巨大差異,這會(huì)導(dǎo)致功能型系統(tǒng)的持續(xù)分化(可以和Linux的分化相對(duì)應(yīng))。這反過來也就意味著一套智能型系統(tǒng),必須同時(shí)解決與功能型系統(tǒng)的適配以及對(duì)不同后端內(nèi)容以及場(chǎng)景進(jìn)行支撐的雙重責(zé)任。這兩邊在操作上,屬性具有巨大差異。解決前者需要參與到傳統(tǒng)的產(chǎn)品生產(chǎn)制造鏈條中去。語(yǔ)音必定將成為未來主要的人機(jī)互動(dòng)接口之一。江蘇語(yǔ)音識(shí)別在線
語(yǔ)音識(shí)別是項(xiàng)融合多學(xué)科知識(shí)的前沿技術(shù),覆蓋了數(shù)學(xué)與統(tǒng)計(jì)學(xué)、聲學(xué)與語(yǔ)言學(xué)、計(jì)算機(jī)與人工智能等基礎(chǔ)學(xué)科。海南安卓語(yǔ)音識(shí)別
使用語(yǔ)音識(shí)別功能之前,先按照說明書安裝百度語(yǔ)音輸入軟件。在瀏覽器中輸入VOICEM380底部的軟件下載鏈接,就可以直接進(jìn)入軟件下載界面了,清晰簡(jiǎn)單,自行選擇win版/Mac版,跟著界面提示一部一部操作就ok。中間綁定手機(jī)/郵箱賬號(hào),接收驗(yàn)證碼,輸入VOICEM380底部的碼。安裝流程就結(jié)束了,讓我們來試試神奇的語(yǔ)音識(shí)別~先試了一下普通話模式,據(jù)官方說,每分鐘可聽寫約400字,準(zhǔn)確率高達(dá)98%。特意找了一段聽起來十分晦澀、拗口的話來測(cè)試,先清點(diǎn)VOICEM380的語(yǔ)音識(shí)別鍵。此時(shí)電腦右下角出現(xiàn)小彈框,進(jìn)入語(yǔ)音接收階段。以正常語(yǔ)速隨便讀了一下,轉(zhuǎn)化效果非常好,實(shí)現(xiàn)零誤差;而且對(duì)于智能語(yǔ)音識(shí)別中的“智能”也有了很好的詮釋,如動(dòng)圖,有些人名、專有名詞不能在一時(shí)間正確輸出,但會(huì)隨著語(yǔ)音的不斷輸入,不斷修正、調(diào)整前面的內(nèi)容;輸入結(jié)束后,可以再次輕點(diǎn)VOICEM380的語(yǔ)音識(shí)別鍵,進(jìn)入“識(shí)別”階段,個(gè)人感覺,更像是對(duì)于剛剛輸出的內(nèi)容進(jìn)行后的整合;如果剛剛的輸出有出現(xiàn)標(biāo)點(diǎn)錯(cuò)亂、錯(cuò)別字的現(xiàn)象,會(huì)在這個(gè)識(shí)別階段,統(tǒng)一調(diào)整,終整合后輸出的內(nèi)容,正確率十分ok。接著試了一下中譯英模式和英譯中模式,整體操作和普通話模式一致。雖然涉及了不同語(yǔ)種之間的翻譯轉(zhuǎn)化。海南安卓語(yǔ)音識(shí)別