(資料圖)
7月7日,業(yè)界首個人工智能(AI)蛋白質生成大模型“NewOrigin”(中文名為“達爾文”)亮相2023世界人工智能大會(WAIC)。NewOrigin大模型的研發(fā)者、清華大學智能產業(yè)研究院卓越訪問教授許錦波表示,AI蛋白質生成大模型瞄準創(chuàng)新藥設計、合成生物學等真實應用需求,將用一個模型滿足蛋白質生成全流程需求,未來大分子藥、新生物材料等蛋白質設計可實現(xiàn)“一鍵定制”。
據(jù)介紹,NewOrigin大模型通過學習千億級多模態(tài)大數(shù)據(jù),可實現(xiàn)多模態(tài)定向生成,單模型就能滿足序列生成、結構預測、功能預測、從頭設計等蛋白質生成全流程需求,致力于解決產業(yè)應用所需的特定功能蛋白質生成難題,并在真實的產業(yè)環(huán)境中評估效果與價值。
蛋白質結構是困擾生物學家的難題之一,科學家們曾多次因解析血紅蛋白等重要蛋白質的三維結構被授予諾貝爾獎。這一局面在AI方法應用之后得到了根本性的改變。
“大模型的出現(xiàn)將大大加速蛋白質生成技術的發(fā)展進程,并推動其在生物醫(yī)藥、合成生物學等領域應用,進而改變生物經(jīng)濟的格局?!痹S錦波在演講中表示。當下ChatGPT等自然語言大模型的表現(xiàn),讓各界對大模型機制信心倍增。但在蛋白質生成等專業(yè)垂直領域,通用的自然語言大模型能力十分有限。究其原因,生物領域的復雜數(shù)據(jù)、專業(yè)知識與應用場景,都與自然語言交互的通用場景相差甚遠,能力要求也更高。
因此,研發(fā)蛋白質生成大模型,除了必備的算法、算力、數(shù)據(jù)等基礎條件,還需要具備專業(yè)進階能力?!熬邆溥@些能力和條件的團隊非常稀缺?!痹S錦波說,團隊從2019年開始使用預訓練機制研發(fā)蛋白質設計算法,通過整合結構預測、側鏈預測、蛋白-蛋白對接等多種技術,結合多種場景需求,目前已在改造或從頭設計蛋白質上取得了重要的突破。在此基礎上,團隊開發(fā)了融合自然語言和蛋白語言的AI蛋白質生成大模型NewOrigin。