山西英語語音識別

發(fā)布時間：2024-12-23 15:00:13 來源：河南鼎誠環(huán)保裝備股份有限公司閱覽次數(shù)：72次

語音識別技術(shù)飛速發(fā)展，又取得了幾個突破性的進(jìn)展,。1970年,，來自前蘇聯(lián)的Velichko和Zagoruyko將模式識別的概念引入語音識別中。同年,，Itakura提出了線性預(yù)測編碼(LinearPredictiveCoding,，LPC)技術(shù)，并將該技術(shù)應(yīng)用于語音識別,。1978年,，日本人Sakoe和Chiba在前蘇聯(lián)科學(xué)家Vintsyuk的工作基礎(chǔ)上，成功地使用動態(tài)規(guī)劃算法將兩段不同長度的語音在時間軸上進(jìn)行了對齊,，這就是我們現(xiàn)在經(jīng)常提到的動態(tài)時間規(guī)整(DynamicTimeWarping,，DTW)。該算法把時間規(guī)整和距離的計算有機地結(jié)合起來,，解決了不同時長語音的匹配問題,。在一些要求資源占用率低、識別人比較特定的環(huán)境下,，DTW是一種很經(jīng)典很常用的模板匹配算法,。這些技術(shù)的提出完善了語音識別的理論研究，并且使得孤立詞語音識別系統(tǒng)達(dá)到了一定的實用性,。此后,，以IBM公司和Bell實驗室為的語音研究團隊開始將研究重點放到大詞匯量連續(xù)語音識別系統(tǒng)(LargeVocabularyContinuousSpeechRecognition，LVCSR),，因為這在當(dāng)時看來是更有挑戰(zhàn)性和更有價值的研究方向,。20世紀(jì)70年代末，Linda的團隊提出了矢量量化(VectorQuantization,。VQ)的碼本生成方法,，該項工作對于語音編碼技術(shù)具有重大意義。語音識別是項融合多學(xué)科知識的前沿技術(shù),，覆蓋了數(shù)學(xué)與統(tǒng)計學(xué),、聲學(xué)與語言學(xué)、計算機與人工智能等基礎(chǔ)學(xué)科,。山西英語語音識別

山西英語語音識別,語音識別

英國倫敦大學(xué)的科學(xué)家Fry和Denes等人di一次利用統(tǒng)計學(xué)的原理構(gòu)建出了一個可以識別出4個元音和9個輔音的音素識別器,。在同一年,，美國麻省理工學(xué)院林肯實驗室的研究人員則shou次實現(xiàn)了可以針對非特定人的可識別10個元音音素的識別器。語音識別技術(shù)的發(fā)展歷史,，主要包括模板匹配,、統(tǒng)計模型和深度學(xué)習(xí)三個階段。di一階段：模板匹配(DTW)20世紀(jì)60年代,，一些重要的語音識別的經(jīng)典理論先后被提出和發(fā)表出來,。1964年，Martin為了解決語音時長不一致的問題,，提出了一種時間歸一化的方法,，該方法可以可靠地檢測出語音的端點，這可以有效地降低語音時長對識別結(jié)果的影響,，使語音識別結(jié)果的可變性減小了,。1966年，卡耐基梅隆大學(xué)的Reddy利用動態(tài)音素的方法進(jìn)行了連續(xù)語音識別,，這是一項開創(chuàng)性的工作,。1968年，前蘇聯(lián)科學(xué)家Vintsyukshou次提出將動態(tài)規(guī)劃算法應(yīng)用于對語音信號的時間規(guī)整,。雖然在他的工作中,，動態(tài)時間規(guī)整的概念和算法原型都有體現(xiàn)，但在當(dāng)時并沒有引起足夠的重視,。這三項研究工作,，為此后幾十年語音識別的發(fā)展奠定了堅實的基礎(chǔ)。雖然在這10年中語音識別理論取得了明顯的進(jìn)步,。但是這距離實現(xiàn)真正實用且可靠的語音識別系統(tǒng)的目標(biāo)依舊十分遙遠(yuǎn),。20世紀(jì)70年代。深圳移動語音識別標(biāo)準(zhǔn)一個完整的語音識別系統(tǒng)通常包括信息處理和特征提取,、聲學(xué)模型,、語言模型和解碼搜索四個模塊。

山西英語語音識別,語音識別

發(fā)音和單詞選擇可能會因地理位置和口音等因素而不同,。哦,，別忘了語言也因年齡和性別而有所不同！考慮到這一點,，為ASR系統(tǒng)提供的語音樣本越多,，它在識別和分類新語音輸入方面越好。從各種各樣的聲音和環(huán)境中獲取的樣本越多,，系統(tǒng)越能在這些環(huán)境中識別聲音。通過專門的微調(diào)和維護,，自動語音識別系統(tǒng)將在使用過程中得到改進(jìn),。因此,，從基本的角度來看，數(shù)據(jù)越多越好,。的確,，目前進(jìn)行的研究和優(yōu)化較小數(shù)據(jù)集相關(guān)，但目前大多數(shù)模型仍需要大量數(shù)據(jù)才能發(fā)揮良好的性能,。幸運的是,，得益于數(shù)據(jù)集存儲庫的數(shù)據(jù)收集服務(wù)，音頻數(shù)據(jù)的收集變得越發(fā)簡單,。這反過來又增加了技術(shù)發(fā)展的速度,，那么，接下來簡單了解一下,，未來自動語音識別能在哪些方面大展身手,。ASR技術(shù)的未來ASR技術(shù)已融身于社會。虛擬助手,、車載系統(tǒng)和家庭自動化都讓日常生活更加便利,，應(yīng)用范圍也可能擴大。隨著越來越多的人接納這些服務(wù),，技術(shù)將進(jìn)一步發(fā)展,。除上述示例之外，自動語音識別在各種有趣的領(lǐng)域和行業(yè)中都發(fā)揮著作用：·通訊：隨著全球手機的普及,，ASR系統(tǒng)甚至可以為閱讀和寫作水平較低的社區(qū)提供信息,、在線搜索和基于文本的服務(wù)。

特別是在Encoder層,，將傳統(tǒng)的RNN完全用Attention替代,，從而在機器翻譯任務(wù)上取得了更優(yōu)的結(jié)果，引起了極大關(guān)注,。隨后,，研究人員把Transformer應(yīng)用到端到端語音識別系統(tǒng)中，也取得了非常明顯的改進(jìn)效果,。另外,，生成式對抗網(wǎng)絡(luò)(GenerativeAdversarialNetwork，GAN)是近年來無監(jiān)督學(xué)習(xí)方面具前景的一種新穎的深度學(xué)習(xí)模型,，"GenerativeAdversarialNets",，文中提出了一個通過對抗過程估計生成模型框架的全新方法。通過對抗學(xué)習(xí),，GAN可用于提升語音識別的噪聲魯棒性,。GAN網(wǎng)絡(luò)在無監(jiān)督學(xué)習(xí)方面展現(xiàn)出了較大的研究潛質(zhì)和較好的應(yīng)用前景。從一個更高的角度來看待語音識別的研究歷程,，從HMM到GMM,，到DNN,，再到CTC和Attention，這個演進(jìn)過程的主線是如何利用一個網(wǎng)絡(luò)模型實現(xiàn)對聲學(xué)模型層面更準(zhǔn)的刻畫,。換言之,，就是不斷嘗試更好的建模方式以取代基于統(tǒng)計的建模方式。在2010年以前,，語音識別行業(yè)水平普遍還停留在80%的準(zhǔn)確率以下,。機器學(xué)習(xí)相關(guān)模型算法的應(yīng)用和計算機性能的增強，帶來了語音識別準(zhǔn)確率的大幅提升,。到2015年,，識別準(zhǔn)確率就達(dá)到了90%以上。谷歌公司在2013年時,，識別準(zhǔn)確率還只有77%,，然而到2017年5月時，基于谷歌深度學(xué)習(xí)的英語語音識別錯誤率已經(jīng)降低到,。語音交互提供了更自然,、更便利、更高效的溝通形式,，語音必定將成為未來主要的人機互動接口之一,。

山西英語語音識別,語音識別

使用語音識別功能之前，先按照說明書安裝百度語音輸入軟件,。在瀏覽器中輸入VOICEM380底部的軟件下載鏈接,，就可以直接進(jìn)入軟件下載界面了，清晰簡單,，自行選擇win版/Mac版,，跟著界面提示一部一部操作就ok。中間綁定手機/郵箱賬號,，接收驗證碼,，輸入VOICEM380底部的碼。安裝流程就結(jié)束了,，讓我們來試試神奇的語音識別~先試了一下普通話模式,，據(jù)官方說，每分鐘可聽寫約400字,，準(zhǔn)確率高達(dá)98%,。特意找了一段聽起來十分晦澀、拗口的話來測試,，先清點VOICEM380的語音識別鍵,。此時電腦右下角出現(xiàn)小彈框，進(jìn)入語音接收階段,。以正常語速隨便讀了一下,，轉(zhuǎn)化效果非常好,，實現(xiàn)零誤差；而且對于智能語音識別中的“智能”也有了很好的詮釋,，如動圖，有些人名,、專有名詞不能在一時間正確輸出,，但會隨著語音的不斷輸入，不斷修正,、調(diào)整前面的內(nèi)容,；輸入結(jié)束后，可以再次輕點VOICEM380的語音識別鍵,，進(jìn)入“識別”階段,，個人感覺，更像是對于剛剛輸出的內(nèi)容進(jìn)行后的整合,；如果剛剛的輸出有出現(xiàn)標(biāo)點錯亂,、錯別字的現(xiàn)象，會在這個識別階段,，統(tǒng)一調(diào)整,，終整合后輸出的內(nèi)容，正確率十分ok,。接著試了一下中譯英模式和英譯中模式,，整體操作和普通話模式一致。雖然涉及了不同語種之間的翻譯轉(zhuǎn)化,。隨著技術(shù)的發(fā)展,，現(xiàn)在口音、方言,、噪聲等場景下的語音識別也達(dá)到了可用狀態(tài),。山西語音識別工具

在醫(yī)療保健領(lǐng)域，語音識別可以在醫(yī)療記錄過程的前端或后端實現(xiàn),。山西英語語音識別

用來描述雙重隨機過程,。HMM有算法成熟、效率高,、易于訓(xùn)練等優(yōu)點,，被應(yīng)用于語音識別、手寫字識別和天氣預(yù)報等多個領(lǐng)域,，目前仍然是語音識別中的主流技術(shù),。HMM包含S1、S2,、S3,、S4和S55個狀態(tài),，每個狀態(tài)對應(yīng)多幀觀察值，這些觀察值是特征序列(o1,、o2,、o3、o4,...,oT),，沿時刻t遞增,，多樣化而且不局限取值范圍，因此其概率分布不是離散的,，而是連續(xù)的,。自然界中的很多信號可用高斯分布表示，包括語音信號,。由于不同人發(fā)音會存在較大差異,，具體表現(xiàn)是，每個狀態(tài)對應(yīng)的觀察值序列呈現(xiàn)多樣化,，單純用一個高斯函數(shù)來刻畫其分布往往不夠,，因此更多的是采用多高斯組合的GMM來表征更復(fù)雜的分布。這種用GMM作為HMM狀態(tài)產(chǎn)生觀察值的概率密度函數(shù)(pdf)的模型就是GMM-HMM,，每個狀態(tài)對應(yīng)的GMM由2個高斯函數(shù)組合而成,。其能夠?qū)?fù)雜的語音變化情況進(jìn)行建模。把GMM-HMM的GMM用DNN替代,，HMM的轉(zhuǎn)移概率和初始狀態(tài)概率保持不變,。把GMM-HMM的GMM用DNN替代DNN的輸出節(jié)點與所有HMM(包括"a"、"o"等音素)的發(fā)射狀態(tài)一一對應(yīng),，因此可通過DNN的輸出得到每個狀態(tài)的觀察值概率,。DNN-HMM4.端到端從2015年，端到端模型開始流行,，并被應(yīng)用于語音識別領(lǐng)域,。山西英語語音識別

上一篇：廣東全過程股權(quán)架構(gòu)選擇
下一篇：嘉興鋼邊箱供應(yīng)商

熱點新聞

河南鼎誠環(huán)保裝備股份有限公司

河南鼎誠環(huán)保裝備股份有限公司

山西英語語音識別

友情鏈接