好湿?好紧?好多水好爽自慰,久久久噜久噜久久综合,成人做爰A片免费看黄冈,机机对机机30分钟无遮挡

主頁 > 知識庫 > 淺談智能問答機器人如何識別你的意圖

淺談智能問答機器人如何識別你的意圖

熱門標簽:福州哪里有羿智云外呼系統 海北高德地圖標注位置怎么弄 什么通電話機器人 電銷機器人是不是不用那么累了 西安美食地圖標注 閑魚地圖標注店名 河南精確外呼管理系統 來安百度地圖標注 電話外呼營銷平臺系統
  任務型對話系統主要包括自然語言理解、對話管理和對話生成。其中,自然語言理解指的是分析識別為文本的用戶輸入,得到用戶的意圖和輸入中的關鍵信息,包括領域、意圖識別、實體識別和槽的提取等。
  隨著自然語言處理技術的發展,一些新的方法運用到了自然語言理解中,并取得了不錯的效果。本文將針對意圖識別這部分,淺談在參與某項目中的一些經驗和思考。
  01.從規則到模型
  以往意圖識別主要采用規則系統,規則系統的模板需要人工配置。
  例如,我們需要支持開空調的意圖,那么可以做如下的配置:
  意圖:開空調
  模板:(請|幫我)(打開|啟動)(這個|那個)?(空調|冷風機)(啊|吧)?
  用戶輸入:幫我打開空調,即可通過模板匹配到開空調意圖
  規則系統的優點是可配置,如果需要增加支持的模板,只需在配置系統內加入,這在線上產生重要遺漏時顯得尤為重要,能夠及時修復。缺點是復雜的語言表述需要更復雜的模板,再考慮到語言的隨意性,配置靈活的模板又會使規則系統接受很多本來沒有意圖的用戶輸入,降低規則系統的準確率。
  基于機器學習的方法,可以一定程度上彌補這些問題,大幅提高召回率。規則系統結合機器學習,在實際操作中是較為靈活的方案。
  02.無監督方法
  傳統方法依賴特征工程,神經網絡需要大量標注,如何以較少的標注數據獲得較好的模型效果成為了研究和實驗重點。
  近年,自監督學習的語言模型研究[1]獲得重大進展,各種使用大規模文本語料庫預訓練的模型層出不窮,這些預訓練模型提供了強大的語義表征能力,使得一些無監督方法重新煥發了活力,這里介紹一種使用語言模型+KNN[2]進行意圖識別的方法
  該方法可以在沒有人工標注的情況,快速建立預測,同時獲得還不錯的效果,在某場景中驗證準確率達到93%。
  03.有監督樣本構造
  當面臨復雜語義場景或低容錯時,監督學習值得嘗試。而對話場景的數據常常是匱乏、昂貴和敏感的,除了人工構造和標注以外,我們需要盡可能的尋找方法獲取標注數據。
  有規則模板:對規則系統中的模板按照語法拆分,依據關鍵詞重要程度,采用笛卡爾積方式構建樣本,這些樣本某種程度上可以用來作為baseline測試集。
  有大量無標注對話語料:采用弱監督方法,使用如Snorkel[3]的工具,基于知識庫、模板、字典、句法和專家規則等構建推理邏輯,為無標注數據打上概率標簽。
圖片來源:Snorkel:Rapid Training Data Creation with Weak Supervision
  負樣本構造:在某些場景中,包含了大量與業務意圖無關的對話,而訓練語料通常只有正樣本,或者模型對某些詞過于敏感,模型對無意圖和意圖不明的對話會產生錯誤的判斷,除常規閑聊語料的運用,需要構建無意圖的負樣本參與模型的訓練和驗證
  在實際操作中,可以基于正樣本的字或詞構建一定區間長度的隨機序列作為負樣本,也可以對字詞做一定篩選后構建。同時,對于multi-class為了不增加新的無意圖類別,可以將負樣本的標簽概率化為1/n,在預測時設置最大類別概率閾值過濾。
  正樣本意圖向量:[0,0,1,0,0]
  弱監督意圖向量:[0.1,0.2,0.5,0.1,0.1]
  負樣本意圖向量:[0.2,0.2,0.2,0.2,0.2]
  實驗證明,通過加入隨機負樣本訓練,對無序輸入文本的識別能提升50%:
  04.預訓練模型微調
  使用預訓練模型加任務微調,現在幾乎成為各類NLP任務的標配,僅僅需要較少標注數據就能達到以往較多標注數據的訓練效果,在意圖分類中嘗試,同樣有較大提升。
  領域自適應
  開源預訓練模型大多基于百科、新聞等語料訓練,屬于通用領域。而對話系統中的文本更加偏向口語化,那么在開源預訓練模型上,加入領域數據繼續訓練,進行領域自適應將變得十分必要。在無業務數據的情況下,可以使用開源對話數據來遷移,學習口語化的表征,使得模型更加匹配對話業務場景。
  性能優化
  使用預訓練模型微調盡管能取得較好的效果,但是由于其深層的網絡結構和龐大的參數量,如果部署上線,將面臨資源和性能問題。對此一般做法是,在模型訓練和推理中使用低精度,同時減少模型層數。近期google提出了一種輕量級ALBERT[4],通過兩種參數精簡方法來提升推理性能,而效果依然達到了SOTA,目前已經開源中文預訓練模型,十分值得關注。
  05.學習意圖分布
  在某些場景,意圖會比較接近,常規的分類方法無法區分,一種思路[5]是將意圖類別和用戶輸入文本嵌入到相同向量空間,基于相似度進行對比學習,目標函數:
  • a是用戶輸入的文本
  • b是對應的意圖,b^-從其他意圖中采樣獲取
  • sim(·,·)是相似度函數,cosine或inner
  • L是目標函數,最大化正確樣本對相似度和最小化錯誤樣本對相似度

# mu_pos: 0.8 (should be 0.0 … 1.0 for ‘cosine’) is how similar the algorithm should try to make embedding vectors for correct intent labels

# mu_neg: -0.4 (should be -1.0 … 1.0 for ‘cosine’) is maximum negative similarity for incorrect intent labels

# loss for maximizing similarity with correct action

loss = tf.maximum(0., mu_pos - sim_op[:, 0])

# minimize only maximum similarity over incorrect actions

max_sim_neg = tf.reduce_max(sim_op[:, 1:], -1) loss += tf.maximum(0., mu_neg + max_sim_neg)

# average the loss over the batch and add regularization losses

loss=(tf.reduce_mean(loss)+tf.losses.get_regularization_loss())

  這種思路有多種好處,能學習到意圖的向量表示,可以在預測時直接基于相似度排序輸出最大意圖;當意圖類別較多時,還能對意圖進行歸類比較;同時這些向量表示也能作為特征用于其他任務,如推薦等。
  06.少樣本學習冷啟動
  目前少樣本學習在圖像領域非常火,用戶只需要上傳一張圖片,就可以遷移各種臉部表情和肢體動作,引領一波社交應用風潮。
  在自然語言處理領域,這方面的嘗試還并不是很成功,阿里巴巴的小蜜團隊在打造的智能對話開發平臺Dialog Studio中提出了少樣本學習方法Induction Network[6],并將該方法用于創建新的對話任務時意圖識別冷啟動,不過代碼并沒有開源。我們對論文中的方法進行了復現并公布了代碼(github地址),在少樣本關系抽取數據集上進行驗證,歡迎fork和交流。
  通過積累線上數據,迭代訓練,常常是提升效果最大的方式,數據決定上限,長遠來講,構建自動化的迭代機制勢在必行。同時,將多輪對話作為輸入,會有更多的探索空間。
  和美信息自然語言處理團隊三年磨一劍,圍繞銀行智能化場景展開了多種探索并取得不錯的成績。例如,某銀行項目中催收意圖識別服務于總行與分行,滲透率已超過70%,每天20萬+人次的調用。新的一年,和美信息人工智能研究院自然語言處理組將繼續努力,圍繞自然語言訓練平臺、智能對話工廠進行展開,通過相關技術與業務人員緊密合作、快速迭代,將公司先進技術與銀行智能化場景結合,實現快速落地應用,未來將有更多AI產品加速銀行智能化轉型進程,也歡迎各位志同道合的小伙伴加入一起探索未來!
  目前和美信息自然語言處理在銀行場景已落地:智能客服、智能搜索、合同文檔自動解析、人崗精準匹配、文檔查重、客戶意見分析、智能推薦、用戶畫像、輿情監控與預警、報告摘要、報告生成、智能審閱等產品,服務各銀行業務部門。 參考文獻:
[1]DevlinJ, Chang M W, Lee K, et al. Bert: Pre-training of deep bidirectionaltransformers for language understanding[J]. arXiv preprint arXiv:1810.04805,2018.
[2]CoverT, Hart P. Nearest neighbor pattern classification[J]. IEEE transactions oninformation theory, 1967, 13(1): 21-27.
[3]Alexander R,et al. Snorkel: Rapid Training Data Creation with Weak Supervision[J].Supervision[J].[J].arXiv:1711.10160,2017.
[4]Zhenzhong Lan,et al. ALBERT: A Lite BERT for Self-supervised Learning of Language Representations[J].arXiv:1909.11942,2019.
[5]Ledell Wu, Adam Fisch. StarSpace: Embed All The Things![J]arXiv:1709.03856,2017.
[6]Ruiying Geng, Binhua Li,et al. Induction Networks for Few-Shot Text Classification[J]. arXiv:1902.10482,2019.

標簽:銅陵 錫林郭勒盟 資陽 牡丹江 東營 營口 巴中 東營

巨人網絡通訊聲明:本文標題《淺談智能問答機器人如何識別你的意圖》,本文關鍵詞  淺談,智能,問答,機器人,;如發現本文內容存在版權問題,煩請提供相關信息告之我們,我們將及時溝通與處理。本站內容系統采集于網絡,涉及言論、版權與本站無關。
  • 相關文章
  • 下面列出與本文章《淺談智能問答機器人如何識別你的意圖》相關的同類信息!
  • 本頁收集關于淺談智能問答機器人如何識別你的意圖的相關信息資訊供網民參考!
  • 推薦文章
    主站蜘蛛池模板: 亨利冢本一区二区三区在线 | beeg日本老师按摩| 久久久久久精品国产免费直播蜜臀| 电影色戒在线| 美女尻逼视频| 美女被到爽了流动漫| 情欲情欲欲超市全文无删减| 久操伊人网| 少妇激情偷公乱140章| 91精品免费观看| 丰满肥胖大码中年**毛片| 别揉我胸~嗯~啊~gif动态图| 97麻豆精品国产自产在线观看| 性谜宫| 51国偷自产一区二区三区的来源| 国产女厕偷窥洗澡A片| 欧美日本一区视频免费| 久久精品五福影院1421| 国产成人久久777777| 欧美与黑人午夜性猛交久久久| 欧美3p精品三区| www日韩中文字幕在线看| 希望之乳在线观看| 女人洗澡秘?免费看的视频| 舌吻激情叫床原声视频| 爽好舒服快娇妻小说| 师兄猛如虎免费全文阅读 | 成都4片p在线完整| 免费啪啪网| 国产精品国产三级国产在线观看| 91系列国产专区| 一级日本婬片A片高潮中| 饥渴寡妇的风流韵事| 5566电影成年私人网站| 品产品久精国精产拍999 原因| 性大乳boobs巨爆乳| 亚洲欧美AV无码国产金银花| 992tv国产人成在线观看| 肉翻漫画| 国产精品人妻熟女a?v88涩爱| 杨颖h文|