騰訊 AI Lab 副主任、西雅圖人工智能研究室負(fù)責(zé)人俞棟日前發(fā)表觀點(diǎn):即使語音識(shí)別在過去取得了一定進(jìn)步,如今機(jī)器也已經(jīng)在電話聊天這樣的任務(wù)上達(dá)到甚至超過人的識(shí)別水準(zhǔn),但是離真正的人與機(jī)器的自由交流還有一定差距。
俞棟還介紹了如今語音識(shí)別的四個(gè)前沿方向,包括更有效的序列到序列直接轉(zhuǎn)換的模型、雞尾酒會(huì)問題、持續(xù)預(yù)測與適應(yīng)的模型以及前后端聯(lián)合優(yōu)化。
值得一提的是,騰訊AI Lab于2016年4月成立。作為騰訊公司級(jí)AI實(shí)驗(yàn)室,AI Lab專注于基礎(chǔ)研究和應(yīng)用探索的結(jié)合,語音識(shí)別正是其四大基礎(chǔ)研究方向之一。騰訊西雅圖研究室由AI Lab副主任、語音識(shí)別及深度學(xué)習(xí)領(lǐng)域?qū)<矣釛澆┦款I(lǐng)導(dǎo),偏向語音識(shí)別及自然語言理解兩大領(lǐng)域的基礎(chǔ)研究。
俞棟是在參加全球機(jī)器智能峰會(huì)(GMIS 2017)期間透露上述觀點(diǎn)的。他在發(fā)表《語音識(shí)別領(lǐng)域的前沿研究(Frontier Research of Speech Recognition)》的演講時(shí)分享了語音識(shí)別領(lǐng)域的四個(gè)前沿研究方向。
他認(rèn)為,如今語音識(shí)別的環(huán)境,以及聲音衰減度等問題都是制約語音識(shí)別技術(shù)進(jìn)一步發(fā)展的問題?!叭缃裎覀冄芯康恼Z音識(shí)別問題越來越?jīng)]有環(huán)境、說話風(fēng)格、口音、詞匯等限定(不像以前有非常多的限制),這極大地增加了語音識(shí)別的難度,同時(shí)研究的前沿也從近場麥克風(fēng)轉(zhuǎn)向遠(yuǎn)場麥克風(fēng)。兩者的區(qū)別在于,在遠(yuǎn)場情況下,當(dāng)人的聲音傳達(dá)到麥克風(fēng)時(shí),聲音衰減很厲害。所以以前在近場麥克風(fēng)很難見到的一些困難,在遠(yuǎn)場麥克風(fēng)場景下就變得很明顯。如果不解決這些問題,用戶在很多的應(yīng)用場合仍然會(huì)覺得語音識(shí)別效果欠佳?!庇釛澲赋?。
俞棟還介紹了如今語音識(shí)別的四個(gè)前沿方向,包括更有效的序列到序列直接轉(zhuǎn)換的模型、雞尾酒會(huì)問題、持續(xù)預(yù)測與適應(yīng)的模型以及前后端聯(lián)合優(yōu)化。以雞尾酒會(huì)問題為例,俞棟指出,人在雞尾酒會(huì)這樣非常嘈雜的環(huán)境中能夠把注意力集中在某一個(gè)人的聲音上,屏蔽掉周圍的說話聲或噪音,非常好地聽懂他要關(guān)注的那個(gè)人的說話聲音?,F(xiàn)在絕大部分的語音識(shí)別系統(tǒng)還沒有這個(gè)能力。
這個(gè)問題在近場麥克風(fēng)并不明顯,這是因?yàn)槿寺暤?a href="http://www.lai935.com/html/gupiao/gainian/index.html" target="_blank">能量對(duì)比噪聲非常大,而信噪比下降得很厲害,所以這個(gè)問題就變得非常突出,成為了一個(gè)非常關(guān)鍵、比較難解決的問題。(原標(biāo)題:騰訊AI LAB副主任俞棟:語音識(shí)別有四大前沿方向)