科大訊飛在語音及語言、自然語言理解、機器學習推理及自主學習等領域保持著國際前沿技術水平,同時在機器翻譯、自然語言理解、圖像識別、圖像理解、知識圖譜、知識發現、機器推理等方向上也處于業界領先水平,是國內當之無愧的人工智能領頭羊。人工智能是高度依賴IT的行業,大量數據和計算的強有力支撐,也成為成就科大訊飛技術領先性的重要因素。
科大訊飛的數據平臺架構和重點
談到人工智能,不得不提深度學習,如今通過深度學習技術來實現人工智能,已成為業界普遍接受的共識。深度學習概念,在上個世紀80年代就已經被提出,但直到近些年才真正得以重視和應用,其背后是因為深度學習所依賴的兩大要素(海量被標記的數據和強大的算力)成為現實,人工智能實質上變成了對數據的處理和計算的科學。科大訊飛人工智能的數據處理,也采用了業界主流的處理流程,可以通過下面的圖示來描述:

在整個數據處理過程中,不同階段所使用的技術,以及這些技術對數據訪問的要求都有差別。數據處理的各個階段及每個階段對數據的訪問特點如下圖所示:

在數據準備階段,科大訊飛采用Hadoop等大數據技術對數據進行清洗;模型訓練階段是整個處理過程的核心,它負責從海量數據的特征中通過深度學習算法,獲得可交付的模型,用于人工智能產品和方案中。
科大訊飛的基礎架構團隊,需要為各個人工智能團隊及業務部門提供穩定、高性能的訓練存儲平臺,同時管理近千臺高性能GPU服務器,訓練使用的存儲平臺性能如何,直接影響業務部門的訓練效率,是整個數據處理流程的重中之重,也是優化訓練平臺的切入點。
為了滿足眾多人工智能業務部門訓練的需要,科大訊飛用于模型訓練的數據平臺必須具備以下特性:
- 保證高帶寬、低延時的讀寫特性,從而為GPU服務器提供足夠的數據輸入,確保GPU的高效使用
- 支持十億級別的小文件及部分大文件混合的讀寫場景,滿足大量特征文件或聚合后的文件存儲需求
- 上層訓練模型使用標準文件接口訪問數據
- 能支持數千臺高性能計算節點的并發訪問
- 為逐步容器化的訓練任務提供無縫數據訪問能力
為什么選擇YRCloudFile
作為訓練的數據平臺
焱融科技和科大訊飛從2019年開始,就進行了多次的交流和實際測試。科大訊飛的技術團隊對訓練使用的存儲平臺選型非常重視,最為關注的是數據平臺的實際性能,包括大文件的隨機讀寫、小文件的讀寫性能;海量元數據的操作性能(creation、stat、removal等);海量文件的支持,以及在海量文件的背景下,數據訪問和操作性能是否保持一致;存儲平臺的穩定性;在故障場景,尤其是元數據服務故障場景下,集群性能的穩定性;與容器平臺的對接;數據生命周期的管理等多方面能力。這些嚴格的評估標準,也是從實際業務的訴求和科大訊飛基礎架構團隊在多年的實際工作積累中提煉出來的。
YRCloudFile在架構上,可以完全與硬件解耦;在通用的服務器上就能充分發揮出高速存儲介質和網絡的性能,相對于其它的存儲產品,性能領先數倍;元數據處理和訪問性能,在故障場景下,元數據的訪問性能尤為突出,充分滿足海量小文件的訪問需求和特點;在容器平臺對接、冷熱數據分層上具有特色鮮明的功能。綜合產品多方面的考量要素,YRCloudFile是最貼近科大訊飛訓練數據平臺的高性能分布式文件存儲產品。
在科大訊飛對焱融科技YRCloudFile進行深入了解和測試之后,雙方達成了全面的合作。
YRCloudFile在科大訊飛的運行狀況
隨著科大訊飛和焱融科技的共同合作,YRCloudFile得以快速應用在科大訊飛核心的大規模深度學習訓練集群生產環境中。憑借YRCloudFile靈活的軟件部署架構和界面化快速部署能力以及焱融科技的全方位售后服務,從第一個YRCloudFile集群上線,到后續數個集群陸續部署,數據快速增長,只經歷短短幾個月時間,總數據規模已達到近10PB,存放近百億用于訓練的音頻、視頻、圖片文件,單集群峰值帶寬達近十GB/s,訓練效率大幅提升。

科大訊飛訓練集群容量快速增長
整個科大訊飛語音訓練平臺服務于科大訊飛內部人工智能研究院近千臺高性能計算服務器,大量科學家和算法工程師通過這些數據對模型進行持續優化,完成科大訊飛各類語音服務的產品輸出。
在YRCloudFile服務科大訊飛過程中,焱融科技和科大訊飛的基礎架構團隊保持密切的溝通,通過數據IO模型特點的分析,焱融科技研發團隊進一步針對科大訊飛的數據特點對YRCloudFile進行產品層面的優化,由此形成了YRCloudFile部署->IO特點分析->讀寫優化->更新上線的完整閉環。雙方技術團隊,基于YRCloudFile在2019年的IO500測試中,獲得了全球第六的成績。
YRCloudFile也通過在科大訊飛大規模的使用,快速積累更多服務人工智能企業高性能存儲場景的經驗和能力,產品得到了進一步的增強,也證明了YRCloudFile的產品穩定性及性能優勢。
YRCloudFile在科大訊飛未來的規劃
目前YRCloudFile已經為科大訊飛的訓練集群提供了大規模的高性能數據服務,接下來還會繼續擴大在此場景下的使用。
- YRCloudFile還提供了很好的云原生存儲的能力,包括支持容器跨節點重建、PVC Quota、PVC擴容、PVC QoS、熱點分析等特性,也是國內首個進入CNCF LandScape的云原生存儲產品,因而,科大訊飛未來計劃將YRCloudFile進一步應用在內部大量的云原生應用場景中。
- 焱融科技的技術團隊還會開放更多的SDK,幫助科大訊飛將YRCloudFile整合到訊飛云平臺中,為更多業務提供基礎的共享文件系統服務。

YRCloudFile給科大訊飛帶來的價值
正如我們所介紹的那樣,海量數據和強大算力是深度學習得以發揮作用的兩大要素。YRCloudFile作為科大訊飛深度學習集群中所使用的高性能文件系統,在提供人工智能基礎架構的核心存儲服務的同時,也逐步體現出越來越大的商業價值。
- 訓練時間大幅縮短。相對于曾經使用的其它商業存儲,YRCloudFile的高帶寬、低延時特性,能夠使GPU等計算服務器的計算效率達到飽和,從而將單次訓練時間由一周縮短至數小時。
- 訓練精度提升。深度學習生成的模型會存在一定的偏差,算法工程師可以通過調整深度學習中的權重,不斷降低深度學習的成本函數(Cost Function),因此算法工程師需要對模型進行多次迭代。由于單次訓練時間的縮短,使算法工程師對模型進行更多的迭代成為可能。迭代次數越多,輔以算法的優化,使科大訊飛的訓練精度得到不斷提升。
總結
目前,國內的人工智能行業正迎來飛速發展的時機,AI交通、AI醫療、AI政務、AI教育、自動駕駛等多個人工智能場景在不斷深入到我們的生活,YRCloudFile將幫助語音識別、視覺識別、自動駕駛等人工智能企業提升訓練效率,增強人工智能企業的產品競爭力,從而更好地服務于更多的用戶。
關于科大訊飛
科大訊飛股份有限公司成立于1999年,是亞太地區知名的智能語音和人工智能上市企業。自成立以來,長期從事語音及語言、自然語言理解、機器學習推理及自主學習等核心技術研究并保持了國際前沿技術水平;積極推動人工智能產品研發和行業應用落地,致力讓機器“能聽會說,能理解會思考”,用人工智能建設美好世界。2008年,公司在深圳證券交易所掛牌上市(股票代碼:002230)。
關于焱融科技
焱融科技是一家以軟件定義存儲技術為核心競爭力的高新技術企業,在分布式存儲等關鍵技術上擁有自主知識產權,是容器存儲的領導者。焱融科技針對各行業業務特性,打造個性化行業解決方案,提供一站式的產品與服務。焱融科技系列產品已服務于人工智能、金融、政府、制造業、互聯網等行業的眾多客戶。了解更多焱融科技信息,請訪問官網www.yanrongyun.com。