
網易科技訊10 月 19 日消息,國外媒體Slate刊文指出,“大數據(Big Data)”一詞已經變得沒有以往那么紅火了,為什么會這樣呢?“大數據”的問題并不在于數據或者大數據自己很糟糕,而是在于盲目迷戀數據,不加批判地使用,那會引發災難。數據也不必然完全反映你想要了解的事情的實際情況。
以下是文章主要內容:
5 年前—— 2012 年 2 月——《紐約時報》刊文高呼人類的一個新紀元的到來:“大數據時代”。該文章告訴我們,社會將開始發生一場革命,在這場革命中,海量數據的收集與分析將會改變人們生活的幾乎每一個方面。數據分析不再局限于電子數據表和回歸分析:超級計算的到來,陪同著可持續記錄數據并將數據傳送到云端的聯網傳感器的不停普及,意味著邁克爾·劉易斯(Michael Lewis) 2003 年的棒球書籍《Moneyball》所描述的那種先進數據分析有望被應用于各行各業,從商業到學術,再到醫療和兩性關系。不但如此,高端的數據分析軟件還有助于鑒定完全意想不到的相關性,好比貸款方用盡額度和他債務違約的可能性之間的關系。這勢必將會催生會改變我們思考幾乎一切事物的新穎見解。
《紐約時報》并不是第一個得出這一結論的企業機構:它的文章引用了麥肯錫咨詢公司 2011 年的一份重大陳訴,其不雅觀點也得到了 2012 年瑞士達沃斯世界經濟論壇題為“大數據,大影響”的官方陳訴的支持。但這種宣言仿佛就是標識表記標幟大數據時代開啟的里程碑。在之后的一個月里,巴拉克·奧巴馬(Barack Obama)的白宮成了一個 2 億美元的國家大數據項目,瘋狂熱潮隨即襲來:學術機構、非盈利組織、政府和企業都爭相去探究“大數據”究竟是什么,他們可以如何好好利用它。
事實證明,這種瘋狂沒有持續很長時間。 5 年后,數據在我們的日常生活中飾演重要很多的角色,但大數據一詞已經不再流行——甚至讓人覺得有些討厭。我們被允諾的那場革命究竟發生了什么呢?數據、分析技術和算法現在又在往什么標的目的發展呢?這些問題值得回頭去思考。
科技咨詢公司Gartner在它 2015 年相當有名的“技術成熟度曲線”陳訴中不再使用“大數據”一次,之后該詞再也沒有回歸。該公司澄清道,這并不是因為企業放棄挖掘巨量數據集獲得洞見的概念。而是因為那種做法已經變得廣為流行,以至于它不再符合“新興技術”的定義。大數據幫手驅動我們的動態消息、Netflix視頻保舉、自動化股票交易、自動校正功能、健康跟蹤設備等不可勝數的工具背后的算法。但我們現在不大使用大數據一詞了——我們只是將它稱作數據。我們開始將數據集能夠包羅無數的不雅觀察結果,先進軟件能夠檢測傍邊的趨勢當做理所當然的事情。
大數據引發的嚴重錯誤
雖然該詞仍有被使用,但它更多地帶有一種欠好的意味,好比凱茜·奧尼爾(Cathy O’Neil) 2016 年的著作《數學殺傷性兵器》(Weapons of Math Destruction)或者弗蘭克·帕斯夸里(Frank Pasquale) 2015 年的《黑箱社會》(The Black Box Society)。匆忙執行和應用大數據,即進行所謂的“數據驅動型決策”,帶來了嚴重的錯誤。
有的錯誤相當惹人注目:塔吉特(Target)曾向一位沒跟任何人說過本身懷孕的少女的家庭派送嬰兒用品優惠券;Pinterest曾恭喜一位單身女性即將結婚;谷歌照片(Google Photos)也曾引發軒然大波,該公司被大肆吹捧的AI將黑人誤以為是大猩猩,原因是它的訓練數據不夠多元化。(值得指出的是,至少在該事件中,“大數據”還不夠大。)
其它的錯誤更為微妙,或許也更加陰險。傍邊包孕奧尼爾在她的重要著作中記錄的那些不透明的數據驅動式制度性模型:被法庭用來判決罪犯的、帶有種族偏見的累犯模型,或者那些基于可疑的測驗分數數據解雇備受愛慕的教師的模型。大數據出錯的新案例可謂層出不窮——好比Facebook算法明顯幫手俄羅斯通過針對性的假新聞影響美國總統大選的結果。
盲目迷戀數據與誤用
“大數據”的問題并不在于數據自己很糟糕,也不在于大數據自己很糟糕:謹慎應用的話,大型數據集還是能夠揭示其它途徑發現不了的重要趨勢。正如茱莉婭·羅斯·韋斯特(Julia Rose West)在比來給Slate撰寫的文章里所說的,盲目迷戀數據,不加批判地使用,往往導致災難的發生。
從素質來看,大數據不容易解讀。當你收集數十億個數據點的時候——一個網站上的點擊或者光標位置數據;大型公共空間十字轉門的轉動次數;對世界各地每個小時的風速不雅觀察;推文——任何給定的數據點的來源會變得模糊。這反過來意味著,看似高級另外趨勢可能只是數據問題或者方法造成的產物。但也許更重大的問題是,你所擁有的數據通常只是你真正想要知道的東西的一個指標。大數據不能解決阿誰問題——它反而放大了阿誰問題。