智能語音交互隨著智能硬件產品的發展,在機器人、家居家電、車載等產品中,已經有了廣泛的應用,被譽為下一代人機交互方式。
不過,互聯網時代的語音識別在很多場景中,都在手機等近講設備上完成。所謂的近講設備,是指設備只有1到2個麥克風,語音交互距離只能局限在0.5米范圍,且對周圍的噪音抑制能力較差。
在物聯網時代,如果想要在遠場識別的產品中,達到一個好的語音交互體驗,引入麥克風陣列產品勢在必行,麥克風陣列利用聲音信號處理算法,對空間中的聲音做信號處理。
例如,在語音喚醒時,定位說話人的方位,進而增強說話人方向的語音,抑制說話人方向以外的聲音,同時抑制非人聲背景音,另外對設備自己播放的聲音也可以通過回聲消除功能過濾掉,實現語音打斷的交互體驗。
麥克風陣列通過2個,4個或者6個麥克風,組成線性布局陣列或者環形布局陣列,可以實現3~5米范圍內的有效拾音,配合優化的遠場識別模型,語音識別率可以達到95%以上。
捷通華聲和清華大學合作,在和合作伙伴推出一系列麥克風陣列硬件產品后,麥克風陣列SDK即將登陸靈云平臺(aicloud.com)。
屆時,智能硬件的開發者在靈云平臺的開發者社區即可完成麥克風陣列SDK下載。在捷通華聲技術支持人員的配合下,完成SDK集成,實現麥克風陣列技術和智能硬件產品的結合,打造出具備出色語音交互體驗的機器人、家電、音箱、車載產品。
捷通華聲依托清華大學在麥克風陣列信號處理領域10多年的技術積累,在產品化的過程中,不斷和客戶的產品磨合,使麥克風陣列核心技術在語音喚醒、聲源定向、回聲消除、語音降噪等方面均達到了行業領先水平。
作為捷通華聲靈云人工智能平臺的第11項核心技術,麥克風陣列技術登錄靈云平臺后,配合已有的云+端語音識別、語義理解、語音合成、聲紋識別等語音技術,可以為客戶產品提供全鏈條的語音交互產品和服務。
無論客戶的產品是哪一種平臺,哪一種形態,靈云VUI(Voice User Interface)均可以提供對應的方案,提供定制化的語音服務,和客戶一起推出差異化語音交互的產品。
一些QA
Q:如何使用靈云麥克風陣列SDK?
A:開發者需要登錄靈云開發者社區,下載對應版本的麥克風陣列SDK,對于需要移植SDK的硬件系統平臺,開發者需要聯系靈云技術支持工程師,溝通移植對應的SDK版本。
Q:怎么將SDK與麥克風硬件結合起來?
A:用戶的智能硬件產品,需要支持安卓,windows或者linux系統,同時可以采集到2路,4路或者6路麥克風原始錄音,以及1路或者2路回聲消除參考音頻,需要和靈云技術支持工程師溝通,保證錄音和靈云麥克風陣列SDK適配。
Q:2/4/6麥克風陣列分別適合哪些智能硬件?
A:主要看設備的形狀、尺寸和應用場景,例如,空調通常是面向前方180°拾音,用線性陣列,2/4麥克風都可以;家庭陪伴機器人在室內四處走動,需要拾取來自360°各個方向的聲音,可以用4/6麥克風環形陣列。當然,麥克風越多,拾音和定向效果越好。
Q:麥克風陣列SDK是否需要適配靈云遠場識別SDK?
A:原則上沒有對第三方語音識別做限制,不過考慮到后續語音識別的優化,建議采用靈云遠場語音識別SDK。除了靈云遠場語音識別SDK,做為全方位的人工智能平臺,靈云平臺的聲紋識別SDK也可以配合麥克風陣列SDK做優化。
靈云麥克風陣列高級產品經理高江江介紹到,相比市場上的同類產品,靈云麥克風陣列SDK登錄靈云平臺后,作為全球第一個開放的麥克風陣列平臺服務提供商,充分表明捷通華聲的用戶理念,即全面擁抱智能語音硬件產品的合作伙伴,致力于和客戶一起推出差異化的語音交互產品。
靈云平臺的第11項核心技術——麥克風陣列技術,在全面服務智能硬件產業的過程中,必然會將語音交互產品從傳統的近講時代推向遠場語音交互時代。
靈云平臺更多信息:www.aicloud.com
體驗靈云客服機器人:010-82826886-8898