微軟雷蒙德研究院開發(fā)出一種機(jī)器學(xué)習(xí)算法,使計(jì)算機(jī)對指定主題對話的語音識(shí)別率增至94.1%,首次與人類水平相當(dāng);對親戚朋友日常對話的識(shí)別率達(dá)88.9%,甚至比人類略勝一籌。
美國國家標(biāo)準(zhǔn)與技術(shù)研究所2000年時(shí)曾發(fā)布一個(gè)數(shù)據(jù)庫,以幫助解決語音識(shí)別難題。該數(shù)據(jù)庫包含的電話錄音有些是個(gè)人之間既定話題的談話,其余則是親戚朋友間的隨意交談。
結(jié)果顯示,人類在轉(zhuǎn)錄語言時(shí)的出錯(cuò)率約為4%,即每一百個(gè)字中人類會(huì)錯(cuò)誤地轉(zhuǎn)錄4個(gè)字。過去,機(jī)器的表現(xiàn)距這一數(shù)字相去甚遠(yuǎn)。如今,計(jì)算機(jī)在把個(gè)人之間既定話題的談話內(nèi)容轉(zhuǎn)錄成文字時(shí),出錯(cuò)率為5.9%,而轉(zhuǎn)錄親戚朋友間任意主題的隨意交談時(shí),出錯(cuò)率為11.3%。“這比預(yù)想的還要好。”微軟研究人員茨威格表示。
隨后,茨威格基于不同層數(shù)的卷積神經(jīng)網(wǎng)絡(luò)來優(yōu)化他們自己的深度學(xué)習(xí)系統(tǒng),從而讓系統(tǒng)的每一層能夠識(shí)別語音的不同方面。然后他們用訓(xùn)練數(shù)據(jù)作為標(biāo)準(zhǔn)來設(shè)置機(jī)器,以便識(shí)別普通語音并且讓他們能夠適應(yīng)測試數(shù)據(jù)庫。
總的來說,微軟的語音識(shí)別系統(tǒng)與人類具有相似的錯(cuò)誤率,但它造成的錯(cuò)誤類型與人類截然不同。微軟機(jī)器最常見的錯(cuò)誤是混淆反饋聲音。相比之下,人類很少犯這樣的錯(cuò)誤。對此,茨威格認(rèn)為,原則上機(jī)器沒有不能通過訓(xùn)練來識(shí)別反饋聲音的理由,出現(xiàn)誤差可能與噪聲在訓(xùn)練數(shù)據(jù)集中標(biāo)記的方式有關(guān)。
微軟研究人員表示,計(jì)算機(jī)語音識(shí)別能力正超越人類水平,“這對計(jì)算機(jī)行業(yè)的重要意義不亞于圖形用戶界面”,其中既包括Xbox這樣的消費(fèi)娛樂設(shè)備,也包括即時(shí)語音轉(zhuǎn)文字等可訪問性工具,以及“小娜”這樣的個(gè)人數(shù)字助理。