什么是自然語言處理?
其應用會如何改變我們的生活?
為什么說它是AI中最難的部分?
它的發展又面臨怎樣的挑戰?
有請華為諾亞方舟實驗室
語音語義首席科學家劉群
為我們一一解答
自然語言處理:AI皇冠上的明珠
自然語言處理,既是一門科學,也是一門應用技術,試圖讓機器去模擬人類的語言能力。
自然語言處理的研究對象是人類語言,如詞語、短語、句子、篇章等。通過對這些語言單位的分析,不僅要理解字面含義,還希望能理解說話人所表達的情感,以及傳達的意圖。
沒有成功的自然語言處理,就不會有真正的認知智能。因此,自然語言處理被視為人工智能的核心問題之一,也被喻為AI皇冠上的明珠。
兩大挑戰,仍待突破
隨著人類進入智能時代,智能設備和數據量都空前增長,自然語言處理領域經過多年發展,雖然取得了長足的進步,但面臨很多挑戰,其中最主要的主要問題有兩個:
一是語義理解,即知識、常識的學習問題。
盡管常識的理解對人類來說不是問題,但是它卻很難被教給機器。比如我們可以對手機助手說查找附近的餐館,手機就會在地圖上顯示出附近餐館的位置。但你如果說我餓了,手機助手可能就無動于衷,因為它缺乏餓了需要就餐這樣的常識。
大量的這種常識都潛藏在我們意識的深處,AI系統的設計者幾乎不可能把所有這樣的常識都總結出來,并灌入到系統中。
二是低資源問題。
面對標注數據資源貧乏的問題,譬如小語種的機器翻譯、特定領域對話系統、客服系統、多輪問答系統等,自然語言處理尚無通用的高效解決辦法。
在工程實踐中,我們除了設法引入領域知識(詞典、規則)以增強數據能力之外,還可以基于主動學習的方法來增加更多的人工標注數據,以及采用無監督和半監督的方法來利用未標注數據,或者采用多任務學習的方法來使用其他任務,甚至其他語言的信息,還可以使用遷移學習的方法來利用其他的模型。
如何改變我們的生活?
華為諾亞方舟實驗室的自然語言處理研究主要包括三個大的方向:語音技術、機器翻譯和對話。
華為的手機語音助手就集成了諾亞方舟的語音識別和對話技術。諾亞方舟的機器翻譯技術支持了華為內部海量的技術資料的翻譯。諾亞方舟基于知識圖譜的問答技術為華為的全球技術支持系統(GTS),提供了快速準確地回答復雜技術問題的能力。
在金融、法律、醫療健康等領域,自然語言處理技術也得到了越來越廣泛的應用。
例如,自然語言處理可以為證券投資提供各種分析數據,進行金融風險分析、欺詐識別等;可以幫助進行法律工作者進行案例搜索、判決預測、法律文書自動生成、法律文本翻譯、智能問答等;還可以幫助醫生進行病歷的輔助錄入、醫學資料的檢索和分析、輔助診斷等等。