
【導語】隨著AI技術的飛速發展,蛋白質結構和功能的預測工具如雨後春筍般湧現。然而,這些工具的有效性高度依賴於高質量的數據集。本文將探討當前AI在蛋白質預測領域麵臨的挑戰,特別是數據可信度低和樣本量不足的問題。上海交通大學開發的VenusMutHub評測平台,如同一場針對AI的大考,揭示了現有工具的局限性和“偏科”現象。文章最後將展望AI蛋白質預測的進階之路,期待未來出現更精準、全麵的預測工具,為蛋白質科學研究帶來新突破。
隨著AI模型不斷進步,用於預測蛋白質結構和功能的計算機工具如雨後春筍版不斷湧現。然而,這些工具通常依賴於一個極大的(高通量的)蛋白質數據集。簡單來說,讓AI預測蛋白質的結構和功能就像玩“找規律”遊戲。下列數字,大家一定不陌生:
1,1,2,3,5,8,X,
X=?
你肯定認出來了,這是著名的斐波那契數列。通過觀察能發現,數列中的每一項都等於前兩項之和,因此X=5+8=13。

圖庫版權圖片,轉載使用可能引發版權糾紛
要想讓AI預測出精準、符合事實的“X”,就得給它輸入足量且正確的前置信息,就是數列中X之前的項。基於對這些前置項的學習,AI才能找到規律,給出有意義的預測結果。
但真實的情況是,數據庫中經過生化性質檢驗的結果占比較低,來自臨床樣本的數據更是少之又少。庫中大多數的蛋白質功能標簽都來自先前的結構預測工具——也就是說,這些“功能”本身就是現有AI的前輩們推測出來的。這就好比將具有多個規則的數列都混合在一起,還隨機插入一些出題人“靈光一現”的數字,再讓AI找規律。可想而知,這樣找出的“規律”必然與真實的自然規律相去甚遠,也遠不具備產業轉化價值。
破局之策:AI大模型賦能蛋白質功能預測
麵對上述難題,上海交通大學的學者們開發出了蛋白質預測AI評測平台VenusMutHub,它就像一場針對AI的“大考”,專門為這些預測工具“打分”,為研究者們提供更精準的AI工具使用思路。
既然有“考試”,那就要先命製“考卷”。由於數據庫中的大多數蛋白質數據可信度較低,為了篩選出對產業進步有實際幫助的工具,這張“考卷”隻能包含經過臨床驗證或生化實驗確定功能的蛋白質結構數據。開發人員從多個數據庫中層(céng)層篩選,最終構建了包括527種不同蛋白共計905個蛋白質突變數據集。這個集合包括了蛋白質突變後穩定性、活性、與其他分子結合的親和力等多方麵數據,且均經過實驗驗證。將這些數據集投喂給AI工具後,開發人員對AI工具給出的數據進行整理,然後分科目對它們的表現進行“打分”。

圖片來源:上海交通大學教育部科學工程計算重點實驗室官網
考試結果大揭秘:AI工具的“眾生相”
這場考試的結果也相當有趣。開發人員將“趕考”的AI工具大致分為三個組別:結構預測型(主要關注蛋白質三維結構的預測)、進化信息型(主要關注同一蛋白在不同物種間的序列差異)和純序列型(主要從氨基酸序列出發進行對比和預測)。
在樣本量對預測結果的影響方麵,當突變數量高於28個,結構預測型工具的可信度全麵領先於其他模型,表現出相當高的可信度。然而,當突變數量小於8個時,所有的模型都無法給出有效結果——全在“胡說八道”。這就像是當數列中給出的已知項不到8個時,所有AI都無法預測出下一項“X”的真麵目,但大多數AI會憑借算法“捏造”一個看似合理的答案。
這為AI工具的使用敲響了警鍾:目前所有的蛋白質突變預測工具均無法在可靠樣本值太小的前提下得出可靠結論,所謂“AI完全取代實驗室”“僅憑計算機技術開發藥物”是完全錯誤的,無論多厲害的算法工具都離不開實驗室提供的數據支撐,AI技術預測到的結果在大規模投入臨床和生產前也必須經過嚴格的細胞或動物實驗驗證。
現有多數通用工具對協同效應捕捉有限,已出現少量專門模型嚐試解決,但整體準確率仍不理想。開發人員發現,參與檢測的AI工(gōng)具(jù)在預測單一位點突變時還比較可靠,但涉及到同時突變兩個位點時就再次集體“啞火”了。它們隻能識別出簡單的疊加作用,即1+1=2。但在自然界中,很多突變之間存在相互協作,會出現1+1>2(正協同)或1+1<2(負協同)的情況,這被AI工(gōng)具(jù)們(men)集體(tǐ)忽(hū)略(è)了(le)。
除(chú)此(cǐ)以(yǐ)外(wài),AI工(gōng)具(jù)們(men)也(yě)像(xiàng)趕(gǎn)考(kǎo)的(de)學(xué)生(shēng)們(men)一(yī)樣(yàng)表(biǎo)現(xiàn)出(chū)了(le)各(gè)種(zhǒng)“偏(piān)科(kē)”現(xiàn)象(xiàng)。有(yǒu)的(de)AI某(mǒu)一(yī)科(kē)目(mù)打(dǎ)分(fēn)很(hěn)高(gāo),卻(què)在(zài)另(lìng)一(yī)科(kē)目(mù)幾(jǐ)乎(hu)不(bù)及格;有的AI平均分看似很高,但卻“深一腳淺一腳”,遇到某些蛋白預測精準,另一些卻胡說八道;還有的AI看似平均分不太高,但輸出均衡,是個成績穩定的中等生。但不管是哪種AI工具,都不能做到“全才”,總有一個科目得分比較低。

圖庫版權圖片,轉載使用可能引發版權糾紛
AI蛋白質預測的進階之路在何方?
總而言之,這次AI工具的集體“大考”撕下了“AI無所不能”的神話麵具,為從業者們提供了明確的思路。對於產業從業者來說,根據研究目的選擇適宜的AI工具非常重要,並且至少需要提供8個可靠的突變數據。而對於開發者,如何提升工具在小樣本(běn)量(liàng)條(tiáo)件(jiàn)下(xià)的(de)預(yù)測(cè)精(jīng)確(què)度(dù)、教(jiào)會(huì)AI預(yù)測(cè)多(duō)個(gè)突(tū)變(biàn)位(wèi)點(diǎn)對(duì)蛋(dàn)白(bái)質(zhì)結(jié)構(gòu)和(hé)功(gōng)能(néng)的(de)影(yǐng)響(xiǎng)更(gèng)為(wèi)重(zhòng)要(yào)。期(qī)待(dài)有(yǒu)一(yī)天(tiān),科(kē)科(kē)滿(mǎn)分(fēn)的(de)“全能(néng)AI”能(néng)夠(gòu)橫(héng)空(kōng)出(chū)世(shì),為(wèi)蛋(dàn)白(bái)質(zhì)預(yù)測(cè)領(lǐng)域帶(dài)來(lái)新(xīn)的(de)突(tū)破(pò)。
參(cān)考(kǎo)文獻(xiàn):
http://doi.org/10.1016/j.apsb.2025.03.028
《生(shēng)物(wù)信(xìn)息(xi)學(xué)(第(dì)四(sì)版(bǎn))》 陳(chén)銘(míng)主編(biān) 科(kē)學(xué)出(chū)版(bǎn)社(shè)
作(zuò)者(zhě):何(hé)一(yī)文 清(qīng)華(huá)大(dà)學(xué)本(běn)碩(shuò),中(zhōng)學(xué)教(jiào)師(shī)
審(shěn)核(hé):李(li)旭(xù) 中(zhōng)國(guó)科(kē)協(xié)研(yán)究(jiū)員(yuán),中(zhōng)國(guó)科(kē)學(xué)技(jì)術(shù)大(dà)學(xué)副(fù)教(jiào)授(shòu)
出(chū)品(pǐn):
本(běn)文封(fēng)麵(miàn)圖(tú)片(piàn)來(lái)自(zì)版(bǎn)權(quán)圖(tú)庫(kù),轉(zhuǎn)載(zài)使(shǐ)用(yòng)可(kě)能(néng)引(yǐn)發(fā)版(bǎn)權(quán)糾(jiū)紛(fēn)
AI校園體育抖音號
AI校園體育視頻號
AI城市更新抖音號
AI城市更新視頻號
微信公眾號