Google公開其將人工智慧用於科學研究的最新進展,研究人員發展一套以Gemini為核心的人工智慧科學研究系統,能將研究問題轉化為可計分任務,自動生成並迭代實證軟體(Empirical Software)。此系統不僅能提出新方法,還能透過樹狀搜尋快速篩選最有潛力的解法,讓科學家驗證假說所需的時間從過去的數月大幅縮短到數天甚至數小時。
Google表示,該系統在基因體學、公共衛生、遙測影像、神經科學、數學積分以及時間序列預測等6項基準測試中,都展現出專家級的水準。
與傳統僅以功能正確為標準的軟體不同,實證軟體的設計目標是最大化特定的品質分數,研究人員需提供問題描述、評分指標,以及用於訓練、驗證和評估的資料,系統則會在此基礎上產生研究構想,並嘗試不同的方法組合並以程式碼重現。整個過程由類似AlphaZero的樹狀搜尋機制引導,決定哪些候選解法值得進一步探索。程式碼執行與評分在沙箱中進行,確保結果能被驗證與重現。
在基因體學領域,系統參與了OpenProblems v2.0.0的單細胞RNA定序跨批次整合任務,成功產生40種新方法,最佳方案將ComBat與BBKNN結合,綜合指標較現有最佳方法提升14%。在公共衛生領域,系統針對美國CDC的CovidHub住院數預測,產生14個模型,回溯測試結果優於官方整合模型Ensemble。
神經科學方面,團隊在ZAPBench基準上設計出新型時間序列模型,其表現超越現有3D影像推估方法,並以概念驗證示範可與生理神經元模擬器Jaxley結合的混合模型。數學領域測試則聚焦於困難積分的數值計算,系統在19個題目中正確解出17題,其中包括傳統方法失敗的案例。
Google已公開論文與互動式網站,供研究人員重現結果或檢視候選解法樹。對科研人員來說,這套系統能將繁瑣的程式碼撰寫與驗證,交由人工智慧自動化處理,自己則能專注於假說設計與研究方向。對熟悉Python與常見深度學習函式庫的開發者而言,這樣的工具等同於一個程式層級的研究引擎,可在短時間內探索大範圍的可能解法,並快速找到具體且可量化的成果。
