人工智能帶來的科學(xué)革命:seo推廣軟件分享資訊這是在給科學(xué)家打下手,比博士生還高效哦。
人工智能(AI)正在革命所有的行業(yè),包括科研,這個看上去最“人類智能”的領(lǐng)域。不過,與憂心忡忡、擔(dān)心被搶飯碗的卡車司機或數(shù)據(jù)分析師不同,科學(xué)家們看到AI簡直兩眼放光:人工智能的計算能力與工作效率不知比博士生高到哪里去了,還不用吃飯和睡覺,真是最理想的“壓榨”對象。唯一的問題是,如果未來人工智能看得懂也寫得了論文了,要不要加上它的署名呢?
近日,著名學(xué)術(shù)期刊《科學(xué)》上刊登了一系列報道,記錄人工智能帶給科學(xué)的革命。
大數(shù)據(jù)與深度學(xué)習(xí)
踏過各自的風(fēng)雨歷程,科研與人工智能在大數(shù)據(jù)時代這個路口,注定相遇。從千變?nèi)f化的染色體與蛋白質(zhì)結(jié)構(gòu)、恒河沙數(shù)的宇宙星體數(shù)據(jù),到互聯(lián)網(wǎng)上每天批量誕生的文字視頻,自然和社會科學(xué)家的煩惱終于逐漸從數(shù)據(jù)不夠,演變?yōu)閿?shù)據(jù)太多,多到超出人類目力和腦力的極限。
而在另一邊,“深度學(xué)習(xí)”(deep learning)賦予了算法“智能”的雛形,恰好為大數(shù)據(jù)而生。在前深度學(xué)習(xí)時代,研究員們需要依靠自己的智慧建立某種關(guān)系,設(shè)定計算機如何由一個輸入值,得出一個對應(yīng)的輸出值。深度學(xué)習(xí)則解放了人類:“喂”給程序大量相匹配的輸入值和輸出值,由程序自身摸索出其中的關(guān)系。
科學(xué)家們就亟待這種解放。對普通人來說神秘而高深的科研工作,其實包含了無數(shù)對海量數(shù)據(jù)的機械性處理,不僅枯燥,而且博士生的一個馬虎,就可能毀掉一個團隊幾年的心血。
粒子物理
早在1980年代,粒子物理學(xué)家們就看上了人工智能。畢竟,粒子物理學(xué)家們很多時候在做的工作,就是一次又一次地把粒子放在加速器里對撞,期待在這些看起來很相似的實驗數(shù)據(jù)里發(fā)現(xiàn)一點點不同的跡象——那可能就是新粒子的魅影。這個工作連篇累牘,枯燥透頂,卻是人工智能最擅長的領(lǐng)域。人工智能善于通過給定的幾個變量,從龐大的背景數(shù)據(jù)中找出有用的信號。
歐洲大型強子對撞機(LHC)
2012年,歐洲大型強子對撞機(LHC)終于“撞”見了預(yù)言中的“上帝粒子”——希格斯玻色子。這是標(biāo)準(zhǔn)模型中最后被發(fā)現(xiàn)的粒子,它的發(fā)現(xiàn)就有人工智能的一份功勞。畢竟,每對撞10億次質(zhì)子,才可能會產(chǎn)生1個希格斯玻色子,而它產(chǎn)生10^-22秒后就會衰變?yōu)槠渌W印2浑y想象,閱讀這些數(shù)據(jù),是怎樣浩大的工作量。
正在解讀LHC數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò) 來源:CERN(歐洲核子中心)
當(dāng)然,在現(xiàn)階段,人工智能只能這樣給物理學(xué)家們打打下手,找找數(shù)據(jù)。具體怎么找,還是基于物理學(xué)家們對物理學(xué)的理解。但人工智能會變得越來越重要。在未來的幾年內(nèi),歐洲大型強子對撞機的對撞速度將提升至目前的10倍。面對洶涌而至的數(shù)據(jù),人工智能不可或缺。
尋找自閉癥基因
盡管生物學(xué)家們不斷通過基因解開疾病的奧秘,但自閉癥卻令他們有些為難。自閉癥具有明顯的遺傳傾向,而目前找到的自閉癥基因,只能解釋其中20%的病例。更多的自閉癥疑兇,藏在人類剩下的25000多個基因中。
美國普林斯頓大學(xué)的計算生物學(xué)家歐嘉·特洛楊斯卡婭(Olga Troyanskaya)收集了大量基因在特定人類細胞中活動的數(shù)據(jù),比如蛋白質(zhì)互動的方式,轉(zhuǎn)錄因子結(jié)合位點和其他關(guān)鍵染色體性質(zhì)。她的團隊運用人工智能,將已知自閉癥基因的活動數(shù)據(jù),與其他未知的基因?qū)Ρ龋瑢ふ蚁嗨菩浴K麄冏罱K找到了2500個疑似基因。
幫助自閉癥患者 來源:BSIP
不過,基因并不是唯一的兇手。遺傳學(xué)家們最近才意識到,基因周圍的染色體非編碼片段也在助紂為虐。找出這些從犯,比找出自閉癥基因本身還要困難多了,更需要人工智能的幫助。
大眾心理
對于社會科學(xué)家來說,人工智能則是一把理性的鑰匙,能解開隱藏在人類語言中的性格密碼。
每天發(fā)在社交網(wǎng)絡(luò)上的狀態(tài),是蕓蕓眾生日常情緒的記號。但是,這些看似雜亂無章的數(shù)據(jù),真的能成為照見大眾內(nèi)心的有用信息嗎?美國著名心理學(xué)家馬丁·塞利格曼(Martin Seligman),和他的同事們成立了一個“世界幸福項目”,試圖透過社交網(wǎng)絡(luò)數(shù)據(jù)捕捉公眾心理和生理健康的信號。比起傳統(tǒng)的問卷調(diào)查,這種方法廉價、自然,數(shù)據(jù)量也多,就是很雜亂——這就需要人工智能的幫助了。
研究員們使用了29000名做過線上自我抑郁評估的Facebook用戶的數(shù)據(jù)。算法成功地在抑郁程度,和平時狀態(tài)里使用的語言之間建立了關(guān)聯(lián)。通過分析一個Facebook用戶平時的狀態(tài),人工智能就能得出他/她的抑郁程度。
另一項研究則顯得更令人驚奇:通過推特內(nèi)容,人工智能可以預(yù)測一個郡的心臟病死亡率。這些隱藏在文字中的因素甚至比排在前10位的主流因素,比如抽煙與否或患糖尿病與否,更能準(zhǔn)確地預(yù)測。
而得克薩斯大學(xué)奧斯汀分校的詹姆斯·彭尼貝克(James Pennebaker)發(fā)現(xiàn),看一個學(xué)生申請入學(xué)時的文章,就能預(yù)測他/她的成績。冠詞和介詞用得好的,分析性思維強,成績一般比較好;愛用代詞和副詞的偏向于敘述性思維,成績一般差一點。
硅谷里的人工智能
高校里的科學(xué)家們看到了人工智能這個優(yōu)秀的勞動力,科技企業(yè)更不會錯過這個商機。位于硅谷的生物技術(shù)公司Zymergen,就由人工智能承包了實驗。
人類正在驅(qū)使各種微生物生產(chǎn)有用的成分:生物燃料、塑料、藥品等等。而Zymergen的業(yè)務(wù),就是通過改造微生物的基因,提高這些“勞工”的生產(chǎn)效率。
那么,如何找到那些可以提高生產(chǎn)效率的基因,并改變它們呢?Zymergen的員工金波爾(Kimball)舉例說:“比如原來的微生物有5000個基因,每個基因你可以做出10種改變,那你就可以做出50000個變種。” Zymergen先做出1000種不同的變種,也許會發(fā)現(xiàn)其中25種的生產(chǎn)效率有那么一點點提高,那這25種就留待第二輪實驗。
人工智能大大加速了這一過程。之前,人力每周大約能完成10次試驗,而機器每周就可以完成1000次。
基因序列
當(dāng)然,想要得到最好的基因變異并不容易,因為這不是一個簡單的加法問題。你得到了25個有輕微提高的變異,如果把它們?nèi)拥酵粋€微生物上的話,那么你大概不會得到一個超強的微生物,而是病蔫蔫的微生物。這仿佛是在一個25維的坐標(biāo)上尋找方向,計算機仍依賴人類判斷力的導(dǎo)航。
目前,Zymergen能將目標(biāo)微生物的生產(chǎn)效率提高10%以上。這聽起來只是微小的工作,但依賴微生物發(fā)酵的化學(xué)產(chǎn)業(yè)規(guī)模達到每年1600億美元,這10%產(chǎn)生的效益,比國家科學(xué)基金(NSF)的經(jīng)費還要多。
“黑箱”
并不是所有科研人員都完全放心人工智能。一個博士生雖然會犯錯,但他能思考并告知自己如何犯了這個錯誤。比起來,深度學(xué)習(xí)就是一個高效而沉默的黑箱。略顯可怕的是,人類無法知道深度學(xué)習(xí)如何得出它的結(jié)論,因而也無從知道它是如何犯錯的。
在過去,數(shù)據(jù)之間的特征是由開發(fā)者提取,并“教會”程序的。現(xiàn)如今,從海量輸入值到海量輸出值之間,人工智能到底提取了哪些特征,建立了哪些關(guān)系,都隱藏在一個黑箱中。視覺識別方面的主流“卷積神經(jīng)網(wǎng)絡(luò)”,就是將每一層提取的特征作為下一層的輸入值,進而提取到更為抽象的特征。隨著深度的增加,人工智能的輸出越發(fā)趨向完美,但其中的“原理”也越發(fā)沒有頭緒。
打開黑箱的嘗試已經(jīng)演變成了一門新的學(xué)科。有些人試圖窺探“黑箱”里到底發(fā)生了什么。華盛頓大學(xué)的馬爾科·里貝羅(Marco Ribeiro),想要通過不斷調(diào)整輸入值,觀察到底是哪些變化影響到了輸出。譬如,不斷調(diào)整一段電影評論文字,讓一個文本分析的人工智能鑒定其評價是正面的還是負面的。而谷歌的研究員桑德拉拉楊(Mukund Sundararajan)則并非隨機調(diào)整輸入值,而是引入了一個空白干擾,一步步向目標(biāo)值漸變,以觀察輸出值特定的“跳躍”變化軌跡。
另一些研究者則想繞開黑箱,開發(fā)一些效果媲美深度學(xué)習(xí),但透明度更高的框架。微軟的里奇·卡魯阿納(Rich Caruana)就被深度學(xué)習(xí)“坑”過。1990年代,他剛從卡內(nèi)基梅隆大學(xué)畢業(yè),加入了一個通過機器學(xué)習(xí)幫助肺炎患者的團隊。通常來講,普通的肺炎病患更宜在家休養(yǎng),避免交叉感染,而那些帶有哮喘等復(fù)雜病情的病患則應(yīng)立即住院治療。神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)了78家醫(yī)院提供的癥狀和結(jié)果數(shù)據(jù)后,出現(xiàn)了一個很難解釋的漏洞:它建議那些帶哮喘癥狀的病患回家。
為了繞開神經(jīng)網(wǎng)絡(luò),卡魯阿納回到統(tǒng)計學(xué)中線性回歸的老路,來尋找靈感。1980年代就存在的廣義加性模型(GAM)不僅能處理簡單的線性回歸,也能通過復(fù)雜的計算,將更復(fù)雜的數(shù)據(jù)進行擬合。卡魯阿納運用機器學(xué)習(xí)方法升級了GAM。在圖像和聲音處理上,神經(jīng)網(wǎng)絡(luò)占有絕對優(yōu)勢。但針對所有能放進表格里的數(shù)據(jù),升級版的GAM表現(xiàn)得都不差。最重要的是,這中間的運算都是透明的。
用GAM跑了一遍肺炎的記錄,卡魯阿納終于找出了當(dāng)年的漏洞是如何產(chǎn)生的:那些患上肺炎的哮喘病患常規(guī)上會被醫(yī)院安排進重癥監(jiān)護病房,重點治療,而人工智能只看到了病人病情的迅速好轉(zhuǎn),因此建議病人回家。
最后,還有一部分研究者即不想法設(shè)法窺探黑箱的內(nèi)部,也不會繞開黑箱。他們專心讓“深度學(xué)習(xí)”更深度,也許,這樣就離黑箱的真相更近了一步。
來源: 澎湃新聞網(wǎng)(上海)