您的位置:全球 美股 / 港股 / 外匯 / 期貨 / 黃金 > 新里程碑!微軟語(yǔ)音到文字轉(zhuǎn)錄已經(jīng)達(dá)到人類水平

新里程碑!微軟語(yǔ)音到文字轉(zhuǎn)錄已經(jīng)達(dá)到人類水平

2017-08-21 14:48? 來源:雷鋒網(wǎng) 本篇文章有字,看完大約需要 分鐘的時(shí)間

來源:雷鋒網(wǎng)

  雷鋒網(wǎng)AI科技評(píng)論按:語(yǔ)音到文字的轉(zhuǎn)換是語(yǔ)音研究領(lǐng)域的重要課題。自引入神經(jīng)網(wǎng)絡(luò)的方法以來,語(yǔ)音識(shí)別正確率有了長(zhǎng)足的進(jìn)展,也為蘋果Siri、亞馬遜Echo、科大訊飛語(yǔ)音輸入法等等實(shí)際產(chǎn)品提供了生長(zhǎng)的土壤。面對(duì)算法識(shí)別總還是比人類要差一些的現(xiàn)狀,微軟剛剛發(fā)布一篇博文公布了自己的最新成果,達(dá)到人類水平已經(jīng)不是夢(mèng)想。雷鋒網(wǎng)AI科技評(píng)論編譯如下。

  2016年,微軟語(yǔ)音和對(duì)話研究團(tuán)隊(duì)對(duì)外公布了一則里程碑性的消息,他們?cè)赟witchboard數(shù)據(jù)庫(kù)的對(duì)話語(yǔ)音識(shí)別任務(wù)中達(dá)到了人類的一致性水平,這意味著他們的系統(tǒng)識(shí)別對(duì)話中文字的能力已經(jīng)和專業(yè)的人類轉(zhuǎn)錄員一樣好。

  當(dāng)時(shí)微軟的研究人員們測(cè)量的這個(gè)轉(zhuǎn)錄系統(tǒng)的單詞誤識(shí)別率為5.9%,這個(gè)表現(xiàn)已經(jīng)達(dá)到了他們測(cè)量的人類轉(zhuǎn)錄員的水平;其它的研究人員也進(jìn)行了自己的研究,運(yùn)用了一個(gè)更加深入的多轉(zhuǎn)錄員協(xié)作模式,達(dá)到了更好的5.1%的人類平均單詞錯(cuò)誤率。這個(gè)結(jié)果和更早的研究是相符的,其中表明如果人類更仔細(xì)、更努力地去做,他們就能夠?qū)?duì)話中出現(xiàn)的確切單詞有更高的一致性。

  一年后的8月20日,微軟語(yǔ)音和對(duì)話研究團(tuán)隊(duì)負(fù)責(zé)人黃學(xué)東興奮地公布了他們的最新進(jìn)展,他們的語(yǔ)音識(shí)別系統(tǒng)也達(dá)到了同樣的5.1%的錯(cuò)誤率。這是業(yè)界的新的里程碑,也比他們?nèi)ツ甑某煽?jī)又有顯著的提高。研究的細(xì)節(jié)在他們一同發(fā)表的論文‘The Microsoft 2017 Conversational Speech Recognition System’中進(jìn)行了詳細(xì)介紹。

  Switchboard 是一個(gè)錄制的電話對(duì)話語(yǔ)料庫(kù),語(yǔ)音研究界用這個(gè)語(yǔ)料庫(kù)測(cè)試語(yǔ)音識(shí)別系統(tǒng)的表現(xiàn)已經(jīng)有20多年的時(shí)間。測(cè)試任務(wù)是對(duì)陌生人之間關(guān)于運(yùn)動(dòng)和政治話題的討論進(jìn)行從語(yǔ)音到文字的轉(zhuǎn)錄。

  相比去年的單詞誤識(shí)別率,今年的系統(tǒng)又把它下降了12%。這個(gè)新系統(tǒng)在他們使用的基于神經(jīng)網(wǎng)絡(luò)的語(yǔ)音語(yǔ)言模型上又繼續(xù)加入了一系列改進(jìn),其中添加了一個(gè)額外的 CNN-BLSTM(convolutional neural network combined with bidirectional long-short-term memory,帶有雙向LSTM的卷積神經(jīng)網(wǎng)絡(luò))用來提升語(yǔ)音建模的效果。并且,系統(tǒng)中以前就在使用的從多個(gè)語(yǔ)音模型進(jìn)行綜合預(yù)測(cè)的方法,如今在幀/句音級(jí)別和單詞級(jí)別下都可以發(fā)揮效果。

  除此之外,微軟的研究員們還根據(jù)整個(gè)對(duì)話過程的歷史記錄來預(yù)測(cè)接下來可能會(huì)說的話,進(jìn)一步加強(qiáng)了識(shí)別器的語(yǔ)言模型,大大增強(qiáng)了模型對(duì)話題和局部上下文的適應(yīng)能力。

  在開發(fā)過程中,研究團(tuán)隊(duì)也從自家的大規(guī)模深度學(xué)習(xí)軟件 Microsoft Cognitive Toolkit 2.1 (CNTK) 中獲益匪淺,不管是探索模型架構(gòu)還是優(yōu)化模型的超參數(shù)。并且,微軟在云計(jì)算基礎(chǔ)設(shè)置方面的投資,尤其是 Azure 云GPU,也幫助提升了訓(xùn)練模型、測(cè)試新想法的效果和速度。

  在過去的25年中,達(dá)到與人類水平的錯(cuò)誤率都是這個(gè)領(lǐng)域的研究目標(biāo)。如今,微軟在長(zhǎng)期研究中的投入已經(jīng)證明了它們的價(jià)值,微軟未來也會(huì)在 Cortana、Presentation Translator、Microsoft Cognitive Services等自家產(chǎn)品和服務(wù)中讓用戶們感受到這些技術(shù)的好處。看到百萬(wàn)級(jí)的用戶每天使用這些產(chǎn)品,微軟的研究團(tuán)隊(duì)也感到非常欣慰。

  在語(yǔ)音識(shí)別方面,業(yè)界和學(xué)術(shù)界有許多研究團(tuán)隊(duì)都做出了杰出的貢獻(xiàn),微軟研究團(tuán)隊(duì)也表示自己從這個(gè)領(lǐng)域的整體發(fā)展中得到了很大收獲。不過,雖然在 Switchboard 語(yǔ)音識(shí)別任務(wù)中取得了5.1%錯(cuò)誤率這樣的喜人成果,整個(gè)語(yǔ)音研究領(lǐng)域還有許多的挑戰(zhàn)等待克服,比如在有噪音、錄音距離較遠(yuǎn)的場(chǎng)景下,在語(yǔ)音有口音的情況下,在只有非常有限的講話風(fēng)格和語(yǔ)言訓(xùn)練數(shù)據(jù)的條件下,達(dá)到接近人類水平的語(yǔ)音識(shí)別效果都還是很大的困難。另一方面,在教會(huì)了電腦把語(yǔ)音轉(zhuǎn)換為文字之后,下一步還要教會(huì)電腦理解其中的含義和目的。在微軟研究團(tuán)隊(duì)看來,從語(yǔ)音識(shí)別到語(yǔ)音理解將會(huì)是語(yǔ)音相關(guān)技術(shù)的下一個(gè)重要前沿。

  免責(zé)聲明:本網(wǎng)站所有信息,并不代表本站贊同其觀點(diǎn)和對(duì)其真實(shí)性負(fù)責(zé),投資者據(jù)此操作,風(fēng)險(xiǎn)請(qǐng)自擔(dān)

閱讀了該文章的用戶還閱讀了

熱門關(guān)鍵詞

為您推薦

行情
概念
新股
研報(bào)
漲停
要聞
產(chǎn)業(yè)
國(guó)內(nèi)
國(guó)際
專題
美股
港股
外匯
期貨
黃金
公募
私募
理財(cái)
信托
排行
融資
創(chuàng)業(yè)
動(dòng)態(tài)
觀點(diǎn)
保險(xiǎn)
汽車
房產(chǎn)
P2P
投稿專欄
課堂
熱點(diǎn)
視頻
戰(zhàn)略










































欄目導(dǎo)航

股市行情
股票
學(xué)股
名家
財(cái)經(jīng)
區(qū)塊鏈
網(wǎng)站地圖

財(cái)經(jīng)365所刊載內(nèi)容之知識(shí)產(chǎn)權(quán)為財(cái)經(jīng)365及/或相關(guān)權(quán)利人專屬所有或持有。未經(jīng)許可,禁止進(jìn)行轉(zhuǎn)載、摘編、復(fù)制及建立鏡像等任何使用。

魯ICP備17012268號(hào)-3 Copyright 財(cái)經(jīng)365 All Rights Reserved 版權(quán)所有 復(fù)制必究 Copyright ? 2017股票入門基礎(chǔ)知識(shí)財(cái)經(jīng)365版權(quán)所有 證券投資咨詢?cè)S可證號(hào)為:ZX0036 站長(zhǎng)統(tǒng)計(jì)