客服語義實體分析平臺是融合客服數據接入、數據轉換、數據存儲、數據分析等功能的平臺;其主要能力包含了自然語義分析能力、數據遷移、數據清洗、大數據存儲、分布式數據計算能力,通過公司研發的DataExchange、DataHouse、UGraph三款數據產品的強力支持,打造客服大數據從治理到存儲、計算的生態并結合tenserflow算法引擎與DataHouse整合后支持分布式模型訓練的能力,可以更好的服務于客服語義分析等,實現客服工單分類、潛客挖掘、智能客服、精準營銷等業務場景的語義分析支撐。
技術特點如下:
1、結構化非結構化統一處理
2、數據采集清洗同步
3、分布式內存處理
4、多種數據災備方式
5、高并發、大吞吐、高可靠
6、數據實時處理不落地
7、100%兼容現有Hadoop環境和傳統數據庫環境
核心功能如下:
1、語義模型管理
語義模型管理的目標是,盡量降低成熟語義模型開發工作量,降低模型開發過程中的交易成本,平滑學習曲線。助推語義能力開發技術的推廣。
其中,模型從需求采集、語料搜集、標簽/標注、模型網絡搭建設計、模型訓練、驗證、發布可形成一個流水線管理模式。
(1)樣本管理
樣本管理負責采集、維護、管理領域類標簽、標注完成的樣本集。提供按標簽體系,按項目,按場景等多維管理功能。
(2)模型管理
模型訓練管理負責承載既有算法模板管理復用,算法模型參數調優,多算法模型對比等功能。同時承擔模型存檔、維護等功能。
(3)模型指標驗證
驗證、測試管理承擔各類模型有效性驗證,各參數指標測試等功能,同時提供模擬各落地場景測試環境的能力。提供功能性測試和非功能性測試環境管理。
2、數據匯聚與流式處理
平臺利用Dataexchange數據流水線的方式對數據進行實時及批量抽取數據、清洗、轉換、過濾等流式處理,支持文件、數據庫、數倉、網絡、日志、大數據平臺等幾乎所有數據源及數據格式。
(1)操作簡便:
一鍵部署,開箱即用,無需專業技術背景,簡單易學,普通業務人員即可操作,降低使用及維護成本。
(2)多種數據采集適配接口:
Oracle、SQLServer、MySQL、DB2、PostgreSQL數據庫適配器;Oracle日志采集適配器;Hadoop/HDFS/HBase/Kafka/Spark、MongoDB、Redis、TCP/UDP等多種采集適配器。
(3)更好的兼容性,開發門檻低:
100%兼容現有Hadoop環境和傳統數據庫環境,無需用戶在流計算框架上進行編程開發工作,提供了SQL語義的流數據分析功能,降低了使用門檻。
高并發、大吞吐、高可靠
數據傳輸可按照優先級任務調度、支持定時批量、實時批量數據傳輸,具有大吞吐、高并發、集群化、高可靠等特點。
(4)數據實時處理不落地:
數據處理過程不落地,降低存儲開銷數據實時計算,實時處理。
3、數據匯聚與流式處理
可完成所有的數據采集、傳輸、復制、預處理、融合和內存計算功能;采集來自各種數據庫、消息系統、網站、移動設備、物聯網等數據;內置計算平臺對采集的數據進行實時清洗和計算分析;分析后的數據結果可實時呈現在用戶分析中心。
4、數據對象分析
針對對象、屬性和方法利用關系流對其中的關聯關系進行配置。對象做為屬性與方法的載體,屬性與方法進行關聯,同時繼承面向對象的思想,屬性也可以關聯其他對象,通過關系流配置映射業務場景,可以根據不同的業務場景,定義不同的分析對象。
(1)對象管理
對象管理是以抽象的概念來支持業務的定義,以庫的形式來進行承載,每一個對象都是一個業務的轉化,將業務以對象的概念進行抽象的實現;同時對象也是屬性與方法的載體,以對象實體表的身份存在。
(2)屬性管理
屬性以獨立的形式存在,可以通過配置與對象和方法進行組合,屬性代表業務場景的一個元數據,屬性通過關聯方法提取的內容做為元數組的值。
(3)方法管理
方法實際指的就是提取數據的功能實現,以庫的形式存在,包含算法和功能方法兩部分,算法目前是指面向NLP領域的算法,方法主要是數據查詢、處理功能的方法;方法可以獨立使用也可以與對象、屬性進行關聯。