聲音很難被偽造,它不僅具有很多個人特征,還蘊含了心理健康與行為等方面的驚人信息。
Voicesense公司向其客戶做出了一個有趣的承諾:提供給該公司某個人的聲音,該公司就能告訴我們這個人將會做什么。該以色列公司可在通話中使用實時語音分析來評估某人是否有可能拖欠銀行貸款、是否會購買更昂貴的產品或是否能成為工作的最佳競選者。
這是眾多試圖挖掘聲音中的私人信息的公司之一。近些年來,尤其隨著家庭助手廣受消費者歡迎,如亞馬遜Alexa,研究者和初創企業都注意到了聲音中蘊含著豐富的信息。據商業分析公司IdTechEx的一份報告,語音技術市場正在不斷增長,預計到2019年市值將達到155億美元。麻省理工學院麥戈文大腦研究中心一位對心理健康研究聲音頗有興趣的科學家Satrajit Ghosh表示:聲音在生活中無處不在,幾乎每個人都會說話,而很多設備如手機,Alexa和谷歌家庭等設備都可捕捉聲音。
聲音不僅無處不在,而且很個人化,也很難被偽造。在家中人們會使用Alexa,在醫院里語音助手的使用也越來越普及。現在很多人都知道Twitter和Instagram上的帖子將會被監控,但很少有人認為聲音是另一種形式的數據,它可告知我們關于我們自己的信息,也可把我們的信息泄露給他人。這些都引發了一系列令人興奮的研究,這些研究主要聚焦于聲音信息如何豐富生活,從聲音中獲取的信息是否準確,又將如何使用這些信息等隱私方面的問題。
語音分析的關鍵不在于人們說了什么,而在于人們是怎么說的,如語調、語速、重音以及停頓。語音分析的訣竅是機器學習。通過機器將倆組被標記的樣本信息,如有焦慮癥和無焦慮癥輸入到同一個算法之中,然后該算法學習捕捉到可表明某人是屬于A組或B組的細微語音信息,之后在新的樣本上可采用同樣的方法來進行辨識。
卡內基梅隆大學的一位計算機科學家Louis-PhilippeMorency表示結果有時候會與直覺相悖。Morency創建了一項名為SimSensei的項目,該項目可通過語音來探測抑郁癥。Morency團隊表示,在將聲音特征與試圖再次自殺的可能性相關聯的早期研究中,他們發現相比發出緊張或憤怒的聲音的人,發出輕柔呼吸聲的人更有可能試圖再次自殺。不過,該項研究仍處于初步階段,而且關聯性通常也不那么簡單。通常來說只有算法能識別出來聲音信息所包含的復雜特征及模式。
Voicesense公司可提供關于健康行為、工作行為、及娛樂等方面的預測。
盡管研究還處于初步階段,研究人員已構建了可利用語音來幫助識別帕金森癥和創傷后應激障礙等疾病的算法。對很多人來說,這項技術的最大前景在于將語音分析和心理健康相結合,從而創建出簡單的方式來監控疾病并且幫助那些有復發風險的人。
布里格姆婦女醫院數字行為健康項目的負責人David Ahern表示,精神患者在住院時會受到密切的監控,但很多精神狀況的變化都發生在日常生活中,而日常生活會慢慢地讓人疲勞。在這種情況下,曾被診為抑郁癥的人可能都不會意識到自己變得再次抑郁了。當人們不處于任何健康系統監控下,這種情況就會發生。如果病情惡化到要去急診室的地步,就可能無法挽回了。從理念方面來說,創造出可監測健康行為的口袋傳感器很可能就是一個早期預警系統,作用將十分強大。
Ahern還是去年12月推出的心理健康監控系統Companion Mx臨床試驗的首席研究員。該系統目前僅對醫生和患者開放,其他初創企業如SondeHealth和Ellipsis Health,也有著創建類似心理健康監控系統的目標。患者可使用App錄下音頻日記,然后程序可分析這些日記以及通話記錄和位置等元數據,從而確定患者在抑郁情緒、興趣減退、回避和疲勞等四因素上的得分以及追蹤隨時間變化而變化的數據。這些信息受聯邦隱私法HIPAA保護,但會告知患者并在面板上呈現給密切關注患者病情的醫生。
據CompanionMx首席執行官Sub Datta稱,該公司已對產品進行了長達七年的試驗,試驗患者超過1500名。該產品由另外一家語音分析公司Cogito研發,已獲得DARPA(美國國防高級研究計劃局)及國家心理健康研究院的資金支持。發表于《醫學互聯網研究雜志》上的研究結果表明,該項技術可預測抑郁癥和PTSD(創傷后壓力心理障礙癥)的癥狀,不過還需要進一步的驗證。
Datta還說到,在前期試驗中,95%的患者每周至少會留下一次音頻日記,醫生每天至少會查看面板一次。盡管Ahern指出哪一部分最有用(是App本身嗎?是反饋嗎?是面板?還是它們的組合?)上仍有很多問題,但這些數據都代表著希望。研究還在繼續中,其他結果還尚未公布。CompanionMx還計劃與衛生保健組織合作,并在退役軍人事務部中尋求機遇。
與此同時,Voicesense、CallMiner、RankMiner、以及CompanionMx昔日的母公司Cogito等企業承諾在商業中使用語音分析。大多數時候這意味著提高呼叫中心的客戶服務參與度,但Voicesense有著更遠大的夢想。Voicesense公司CEOYoavDegani表示現在該公司已能生成完整的個性檔案,但他的計劃遠不止安撫不滿的客戶。該公司對很多業務都頗感興趣,如貸款違約預測、保險索賠預測、客戶投資風格揭示、內部人力資源候選人評估以及員工離職評估。Degani還表示公司可提供關于健康行為、工作行為、娛樂等方面的預測,雖然不會百分百準確,但大部分時候都是準確無誤的。
在Degani分享的一個案例研究中,Voicesense與一家大型歐洲銀行合作對其技術進行了測試。銀行向Voicesense提供了幾千名債務人的語音樣本(銀行已知道誰拖欠了貸款,誰沒有拖欠)。Voicesense在這些樣本中運算其算法,并把錄音分為低風險、中風險和高風險三類。在此項分析中,預測為低風險組中僅有6%違約,而預測為高風險組中有27%違約。在另一項考察臨時員工離職可能性的評估研究中,算法歸為低風險類中僅有13%離職,而高風險組有高達39%的員工離職。
當算法算錯會發生什么?
麻省理工科學家Ghosh表示這些都是合理的應用,于他而言沒有什么是危險的。但與任何預測性技術一樣,如果分析做的不好,就很容易過度概括。一般來說,除非看到有證據表明某件事在很多人身上以及這一類人群上得到了驗證,否則很難將某人的說法認為是理所當然。除非采樣足夠多,否則聲音的特征會有相當大的差異,這也是為什么該公司不會做出強烈聲明的原因。
CEODegani還表示Voicesense的語音處理算法每秒可測量200多個參數,而且在很多不同語言上包括像普通話這樣的聲調語言都能測量準確。目前該公司的項目還處于試點階段,但該公司與很多大型銀行及投資者都保持著聯系。他還提到,每個人都被這項技術所吸引。
客戶服務僅是一方面,德萊克斯大學的一位犯罪學教授Robert D’Ovidio表示Voicesense設想的一些應用可能具有歧視性。想象一下打電話給抵押貸款公司,貸款公司通過語音判斷你患心臟病的風險極高,然后由于你可能長時間不待在公司,你就會被歸類為高風險人群。
D’Ovidio教授還補充說到,應建立消費者保護法來防止這些信息被收集。他希望隨著人類的進步,我們能意識到無論什么形式,比如電子表格中輸入的一行數字或是捕捉到的聲紋,這僅僅只是數據。但我們至少應該要求當信息如語音被使用時應告知我們。此外,他希望看到在保護消費者的規章制度上能有所進展。
華盛頓大學法學院教授RyanCalo指出像這樣的消費者保護措施是存在的。美國有些州如伊利諾伊州已有相關法律來保證生物識別如語音識別的安全。Calo還補充到,無論技術是被用于語音分析還是簡歷篩選,與種族或性別等敏感類相關的偏見問題是其特有的問題。但當機器學習技術被用于面部或語音識別時,人們內心深處會感到不安,部分原因是由于這些特征都太個人化。盡管反歧視法真的存在,但當使用信息及歧視(社會還未能充分解決的概念)都能接受時,語音分析的很多方面會遇到更多問題。