來源ai:世界科學
概要:社交媒體擁有數以億計的用戶,他們每年發布數以千億計的微博和帖子,這將社會科學推向ai了大數據時代。
人工智能“知道”星系應該是什么樣的,它把一張模糊的圖像(左)變成了一張清晰的圖像(右)
AI可以通過你的智能手機與你對話,可以在無人駕駛汽車里上路行駛,心懷疑慮的未來主義者擔心AI的飛速發展將有可能導致大規模失業,但對于科學家來說,AI前景是光明的:它將加速科學發現的進程。
算法如何分析大眾情緒
社交媒體擁有數以億計的用戶,他們每年發布數以千億計的微博和帖子,這將社會科學推向了大數據時代。心理學家馬丁?塞利格曼(Martin Seligman)認識到:社交媒體提供了一個前所未有的機會——利用人工智能從大眾溝通中提取意義。在賓夕法尼亞大學積極心理學研究中心,塞利格曼和20多位心理學家、醫生和計算機科學家投身于世界福祉項目,利用機器學習和自然語言處理技術大量篩選數據,以期衡量公眾的情緒和身體健康狀況。從傳統上來講,這些都是通過調查完成的。但塞利格曼說:“社交媒體數據并不引人矚目,非常廉價,而且所獲數據的數量級也更大。”社交媒體上的數據是凌亂的,但是人工智能可以提供一種揭示其中模式的高效方法。在最近的一項研究中,塞利格曼及同事研究了29000名用戶在臉譜網上更新的內容,他們對于是否患有抑郁癥進行了自ai我評估。研究人員利用其中28000名用戶的數據資料,通過機器學習算法,發現用戶用詞和抑郁程度存在關聯。這樣一來,僅僅根據更新內容,這種算法就可以成功地判定出其余用戶的抑郁程度。
在另一項研究中,研究小組分析了1.48億篇微博以預測一個縣城中的心臟病致死率。結果證明,跟憤怒和消極關系有關的話語成為危險指標。相較于根據吸煙、糖尿病等10個主要危險指標進行的預測,通過社交媒體進行的預測與實際死亡率更加接近。除此之外,研究人員還利用社交媒體來預測人的性格、收入和政治思想意識,并研究醫院護理、神秘經歷和刻板印象等情況。通過推特的數據,研究人員甚至創建了一張地圖,用不同顏色描繪了美國每個縣居民的幸福感、抑郁度、信任度和五種人格特質。德克薩斯大學奧斯汀分校的社會心理學家詹姆斯?潘尼貝克(James Pennebaker)說:“語言分析與心理學的聯系正在發生一場革命。”潘尼貝克注重的不是內容,而是風格。例如,他發現:可以根據大學招生考試的文章中所使用的功能詞來預測成績。冠詞和介詞的使用體現了分析思維能力,可以預測其成績會較高;代詞和副詞的使用體現了敘事思維能力,可以預測其成績會較低。此外,潘尼貝克發現的證據表明:1728年的劇本《雙重背叛》(Double Falsehood)中的大部分內容可能是由威廉?莎士比亞撰寫的,根據認知復雜性和罕見詞等因素,機器學習算法認定該劇本與莎士比亞的其他作品一致。潘尼貝克稱:“現在,我們可以分析一個人曾經撰寫和發布過的所有內容,并且逐漸分析你和他人的談話方式。結果就是,我們可以越來越詳細地描繪出大家到底是什么樣的人。”
通過基因組搜尋自閉癥的根源
對于遺傳學家來說,自閉癥是一個棘手的問題,而遺傳模式表明自閉癥具有很強的遺傳因素。但是,對自閉癥有影響的數十種已知基因的變體,只能解釋所有病例的大約20%。要想找到可影響自閉癥的其他變體,就需要在25 000個其他人類基因及其周圍DNA的相關數據中尋找線索——這是人類研究者難以招架的任務。因此,普林斯頓大學的計算生物學家奧爾加?特洛伊安斯卡亞(Olga Troyanskaya)和紐約市西蒙斯基金會引入了人工智能工具。
紐約基因組中心創始人、洛克菲勒大學醫學科學家羅伯特?達內爾(Robert Darnell)解釋說:“我們所能做的,就是像生物學家一樣揭示自閉癥等疾病是由什么引起的。在某個方面,當一個科學家提出10個問題時,機器卻有能力提出1萬億個問題,機器將改變整個游戲規則。”
特洛伊安斯卡亞整合了數百個數據集,這些數據集包含了哪些基因在特定的人類細胞中表現出活性、蛋白質之間是如何發生相互作用、轉錄因子結合位點以及其他關鍵基因組特征所在之處的描述。然后,特洛伊安斯卡亞及其研究小組利用機器學習創建了一份基因相互作用的圖譜,并將少數已經熟知的自閉癥風險基因與數千個其他未知基因進行對比,試圖尋找其中的類似之處。2016年,他們在《自然-神經科學》上發文說:對比表明,另外2500個基因可能跟自閉癥有關。
然而,就像最近遺傳學家才認識到的那樣——基因并不是單獨起作用的,基因的行為是由附近數百萬個非編碼堿基決定的,而非編碼堿基與DNA結合蛋白以及跟其他因子發生相互作用。與尋找這些基因相比,識別哪些非編碼變體可能會影響到附近的自閉癥基因是個更加困難的問題。在普林斯頓大學特洛伊安斯克亞的實驗室里,有位名叫周健(Jian Zhou)的研究生正在利用人工智能解決這個問題。
為了訓練這個深度學習系統,周健為這個系統引入了DNA元素百科全書和人類表觀基因組學收集的數據,這兩個項目記錄了數萬個非編碼DNA位點是如何影響附近基因的。在評估非編碼DNA未知片段上潛在的活動時,該系統實際上學會了如何確定應尋找的特征。2015年10月,當周健和特洛伊安斯克亞在《自然-方法學》上描述他們這個被稱為DeepSEA的計劃時,加州大學爾灣分校的計算機科學家謝曉輝(Xiaohui Xie)將其稱為“把深度學習應用到基因組學的里程碑”。目前,普林斯頓大學的研究團隊正在利用DeepSEA計劃對自閉癥患者的基因組進行分析,希望能夠對非編碼堿基帶來的影響進行排序。
同樣,謝曉輝也正在利用人工智能處理基因組,但他關注的范圍不僅僅是自閉癥,他更希望根據突變的危害程度對其進行分類。但是,謝曉輝警告說:在基因組學中,深度學習系統只有在受過訓練的領域才能像數據集那樣有效。他說:“在我看來,當前人們會質疑這種系統在分析基因組方面的可靠性。但是將來越來越多的人會接受深度學習。”
能夠理解太空的機器
2017年4月,天體物理學家凱文?沙文斯基(Kevin Schawinski)在推特上發布了4個星系的模糊圖片,并隨圖附上了一個請求,希望同行的天文學家能夠幫助他進行分類。同行們意見一致:這些圖像看起來像橢圓和螺旋結構,屬于熟悉的星系類型。
但一些天文學家仍心存疑慮,因為沙文斯基是有頭腦的,所以他們直截了當地問道:這些是真正的星系嗎?它們是利用相關物理學原理在電腦上模擬出來的模擬星系嗎?沙文斯基回答說:其實兩者都不是。在瑞士蘇黎世聯邦理工學院,沙文斯基、計算機科學家張策(Ce Zhang)及其合作人員,在一個神經網絡中模擬了這些星系,該神經網絡對物理學原理一無所知,似乎只是幫助我們理解在深層次觀察中,星系看起來應該是什么樣的。
沙文斯基只不過是想利用在推特上發布的帖子來看看神經網絡創造的星系在多大程度上是可信的,但是他更遠大的目標是開創一項技術,能夠像電影中那樣將模糊的觀測圖像奇跡般地清晰化——神經網絡能夠使模糊的星系圖像看起來更加清晰,就好像是用較為高級的望遠鏡拍攝的。這樣,天文學家們就能夠從大量的觀察中得到更為精確的細節畫面。沙文斯基說:“在巡天工程中,我們花費了數億甚至是數十億美元的資金。從某種程度上說,一旦有了這項技術我們即刻就能提取更多的信息。”
沙文斯基在推特網上發布的星系圖像是生成對抗性網絡的作品,該網絡是一種機器學習模型,包括兩個互相對抗的神經網絡,其中一個網絡是可以創造圖像的生成器,另一個是可以挑出瑕疵、去除偽造成分的鑒別器,它可以形成優化的生成器。沙文斯基的研究小組拍攝了數千張真實的星系圖像,然后人為分解它們。接著,研究人員訓練生成器拼接圖像,使它們具有鑒別器的功能。最終,神經網絡會勝過其他技術,成為消除星系圖像雜亂成分最好的技術。
伊利諾伊州巴達維亞地區費米國家加速器實驗室的天體物理學家布萊恩?諾德(Brian Nord)說:沙文斯基的方法是機器學習在天文學領域一個特別前衛的例子,但并非絕無僅有。2017年1月,在美國天文學會的一次會議上,諾德提出了一種機器學習策略,用來搜尋強效引力透鏡——遙遠星系的圖像在通往地球的過程中經過扭曲的時空時,會在太空中形成罕見的光弧。這些引力透鏡可用于測量宇宙間天體的距離,并發現肉眼看不見的質量密度。
強效引力透鏡的視覺效果十分獨特,但難以利用簡單的數學規則描述——利用傳統的計算機很難分辨出來,但是對于人類來講卻相對容易分辨。諾德和其他科學家意識到,利用數千個透鏡對神經網絡進行培訓之后,神經網絡就可以獲得類似人類的直覺。諾德稱:“實際上,在接下來的幾個月里,我們撰寫了十幾篇論文,都是研究應用機器學習搜尋強效引力透鏡的,這是一件激動人心的事情。”
在整個天文學領域,這只是冰山一角。天文學家越來越認識到,人工智能提供了一個強有力的工具,可以利用PB級數據發現有趣的天體并對其進行分類。沙文斯基稱:“人人都在驚呼:‘天哪,我們擁有的數據太多啦!’我認為,在大數據時代利用人工智能,終將會有真正的發現。”
神經網絡學習化學合成的藝術
有機化學家善于反向思維。類似于烹飪大師先從看到成品菜肴開始,然后再研究如何烹制……許多化學家都是從他們想要制造的分子的最終結構開始思考如何組裝它。德國明斯特大學的研究生馬爾文?塞格勒(Marwin Segler)說:“要想知道如何合成分子,你所需要的只是合適的成分和方法。”目前,塞格勒和其他研究人員正在將人工智能引進他們的分子實驗室。
研究人員希望人工智能能夠幫助他們應對分子制造過程中的一個關鍵挑戰:從數百個潛在的構建材料和數千個相關的化學規則中做出最合適的選擇。幾十年來,一些化學家利用已知的化學反應煞費苦心地為計算機編程,希望創建一個能夠快速計算出最靈敏的分子合成法的系統。然而,塞格勒說:“化學可能是非常微妙的,很難以二進制的方式寫下所有的規則。”
因此,塞格勒、明斯特大學計算機科學家邁克?普羅伊斯(Mike Preuss)和塞格勒的顧問馬克?沃勒(Mark Waller)將目光轉向了人工智能。他們沒有利用化學反應的嚴格規則進行編程,而是設計了一個深度學習的神經網絡程序。通過數以百萬計的化學反應實例,該程序能夠自行學習反應是如何進行的。塞格勒稱:“你提供的數據越多,效果就越好。”隨著時間的推移,這個神經網絡學會了如何預測化學合成過程中目標分子的最佳反應。它從零開始,最終拿出了自己的分子制造方案。
這3位研究人員測試了40種不同的目標分子,并與傳統的分子設計程序進行對比。根據2017年研究人員在一次會議上的報告,在兩個小時的計算時間內,傳統程序完成了22.5%目標分子的合成方案;而人工智能程序則完成了95%的合成方案。塞格勒不久將要前往倫敦的一家制藥公司工作,他希望通過這個方法改進醫藥的生產過程。
加州帕洛阿爾托市斯坦福大學的有機化學家保羅?溫德(Paul Wender)認為,現在判斷塞格勒的方法是否有效,還為時尚早。然而,溫德也正在將人工智能應用到有機化學合成,他認為:不僅在合成已知分子方面,而且在尋找制造新分子的方法方面,人工智能都可能會產生深遠影響。塞格勒接著說,人工智能不會很快取代有機化學家,因為化學家們所做的遠遠不只是預測反應將會如何進行。就化學來說,人工智能就像GPS定位系統,它可能適于尋找合成的路線途徑,但它本身卻不能自行設計和執行整個合成過程。
當然,人工智能開發人員也已經著眼于完成其他任務了。
如需要了解產品詳情,可電話咨詢專業客服人員:15358521011(微信同號)