AI在軟體開發與安全領域的最新進展

重點新聞（1003～1009）

CodeMender DeepMind 漏洞修補

DeepMind揭自家AI代理CodeMender可自動偵測軟體漏洞並修補

Google DeepMind最近揭露，他們正在研發中的AI代理CodeMender，可自動找出並修補軟體漏洞，還能重寫既有程式來移除風險。團隊指出，CodeMender在過去6個月已對多個開源專案提交72項安全修補，涵蓋了450萬行程式碼。

DeepMind之前就以Big Sleep和OSS-Fuzz展示AI發現零時差漏洞的潛力，但隨著AI發現漏洞的速度越來越快，人工修補和審核已經跟不上節奏。因此DeepMind開發CodeMender，以Gemini Deep Think模型驅動，會先對程式行為與語意進行推理，再決定修改策略，而且，系統在提出修補前，會經過自動驗證，只將符合條件的高品質修補交由人工審核。

CodeMender包括一組程式分析工具，涵蓋靜態分析、動態分析、差異測試、模糊測試與SMT求解器，再輔以可檢視程式行為的偵錯器與程式碼瀏覽工具。CodeMender也使用多代理設計，包括以大型語言模型打造的評析工具，能逐檔比對原始與修改後的差異、辨識可能的回歸點並觸發自我修正。此外，代理也能處理複雜的物件生命周期問題，甚至修改專案內部自訂的C程式碼生成系統，提出可驗證的修補方案。（詳全文）

微軟 Agent Framework AI代理

開發企業級AI代理更容易，微軟開源Agent Framework

微軟最近開源Microsoft Agent Framework，讓開發者更容易建置和部署多代理（Multi-agent）系統。該框架將Semantic Kernel的企業級基礎，與AutoGen的多代理調度能力整合到執行環境中，提供從AI代理原型開發到生產部署的完整流程。目前該框架已進入公開預覽階段，支援MCP、A2A等協定，也與OpenAPI互通，讓AI代理在不同環境中協作。該框架還適用於Python、.NET程式語言。

微軟強調，Agent Framework的特色之一是企業即用。框架內建OpenTelemetry觀測能力，可追蹤每次工具呼叫與流程步驟，且同時具備長任務耐久機制，能在中斷後自動恢復運作。系統也支援人為核准（Human-in-the-loop），讓需要人工審核的任務能在介面或佇列中待准許後再執行。此外，框架可直接與GitHub Actions和Azure DevOps整合，支援CI/CD流程與異常追蹤，方便企業在部署後持續監控營運狀態。微軟同步更新VS Code AI Toolkit開發工具，開發者可在本地環境中建立、執行並視覺化多代理工作流程，降低開發門檻、加速迭代。（詳全文）

OpenAI AI代理 版本控管

OpenAI公布代理人開發工具AgentKit

OpenAI在近日的Dev Day大會上推出AgentKit工具集，要協助開發者和企業更快地建置、部署AI代理應用，還優化了評估和微調工具。過往，開發者須手動整合四散的工具、缺乏版本控管，AI代理開發過程冗長且繁複。

AgentKit就是要解決這個問題，它的組成有Agent Builder、Connector Registry和ChatKit。其中，Agent Builder是一個視覺化工作區Canvas，可建立多代理工作流程和管理版本，使用者拖拉節點、連結工具就能建置控制邏輯，還能設定護欄。Connector Registry則能管理所有OpenAI產品資料和工具，能將ChatGPT和API的資料源整合到單一管理介面。同時，註冊中心（registry）還能透過預建的連接器，讓代理連結第三方系統如Dropbox、Google Drive和MCP伺服器等。ChatKit則能把可客製化聊天代理嵌入到應用程式工具組。

為確保品質，OpenAI也強化Eval評估工具，可針對代理工作流程進行端到端評估，並利用人類標註自動優化提示。同時，OpenAI還提供強化式微調（RFT）功能，開發者可用來客製化OpenAI的推理模型，現已能在OpenAI o4-mini使用。（詳全文）

ChatGPT 應用程式 OpenAI

ChatGPT變身為應用程式平臺

OpenAI最近宣布，要將ChatGPT整合外部應用程式，還預覽Apps SDK來讓開發者建置相容的應用程式。[首波上線的程式包括Booking.com](http://xn--booking-fw3kf48atk4a44ig73a8f0ahlk21nw91i.com/)、Canva、Coursera、Figma、Expedia、Spotify和Zillow，預計今年就會開放開發者提交應用程式，之後也會建立市集供程式上架。即日起歐盟以外的Free、Go、Plus與Pro用戶都可於ChatGPT中使用應用程式功能，但目前只開放英文指令。

使用者可直接在ChatGPT呼叫某個程式來回答問題，或者是在詢問時，由ChatGPT主動提出程式建議。比如，使用者可在ChatGPT直接點名Spotify來建立派對歌單，或是要Booking.com找出聖誕節的巴黎住處，或請Coursera推薦AI入門課程。與ChatGPT討論買房問題時，系統會建議呼叫買房應用程式Zillow，當你需要製作簡報時，ChatGPT會建議使用Canva。

今年預計上線的第二波應用則有健行路線規畫程式AllTrails、健身程式Peloton、餐廳訂位程式OpenTable與theFork、零售平臺Target，以及Uber。（詳全文）

Google Gemini CLI 第三方整合

Gemini CLI推出擴充套件機制，開放支援第三方整合

Google宣布在Gemini CLI加入擴充套件機制，開發者可在終端機中安裝並啟用常用工具，將日常工作流程整合到同一命令列介面，減少各服務間的切換。每個擴充套件內建可即時上手的內建使用指引（Playbook），首次下指令即可得到可用結果，不必額外繁複設定。

使用者可透過指令來簡單安裝、移除擴充套件。Google還推出Gemini CLI Extensions清單頁，彙整Google、社群與其合作夥伴擴充套件，並以GitHub星數顯示熱門度，方便開發者挑選。Google強調，擴充套件不僅是連線器，更在封裝層面加入智慧引導。當使用者下指令時，Gemini CLI會參照擴充套件的內建使用指引，還可以結合本機專案脈絡和版本控制資訊，自動挑選並執行合適的工具。（詳全文）

Databricks 代理型AI 效能

代理型AI運作效能提升100倍的技術來了

Databricks 日前發表資料整合技術Mooncake，號稱能將代理型AI的運作效能提升100倍。該技術來自其9月底收購的新創公司Mooncake Labs，核心是基於Apache Iceberg開放表格格式的解決方案。

傳統上，用於「寫入」的OLTP（交易處理）與用於「讀取」的OLAP（分析處理）需透過耗時的ETL工作流程分別處理。但是，代理型AI需要自主系統在幾秒內完成資料接收、決策和行動，無法接受這種時間延遲。

於是，Mooncake技術緊密整合了儲存、索引和運算，解決交易與分析處理之間的管線和時間差，達到可即時分析的資料狀態。這項技術被視為Databricks Lakehouse資料湖倉整合架構的關鍵一步，使其能支援如詐欺偵測或生成式AI 代理人等自主應用的高速回饋循環。（詳全文）

抓漏 Google 獎勵

Google發表AI產品抓漏獎勵計畫

Google日前更新了專屬AI產品的抓漏獎勵計畫AI VRP，目的是要整合濫用和安全問題。新的AI VRP將產品分級，等級愈高獎金愈多，旗艦產品如Google Search、Gemini Apps等被列為最高級，而AI Studio、Jules與Google Workspace的非核心應用則被列為標準產品，而被整合於Google產品中的其它AI則被歸類為其它。

若在旗艦級AI產品中發現能修改受害者帳號或資料的安全漏洞（Rogue Actions），基本獎金為2萬美元；若報告品質高且漏洞具新穎性，最高可獲3萬美元獎勵。值得注意的是，Google特別澄清，越獄（Jailbreak）、提示注入（Prompt Injection）或對齊問題（Alignment Issues）並未被列入此次AI VRP的獎勵範圍。Google解釋，這些屬於內容問題，需要長期跨學科努力來改善，與VRP鼓勵回報安全漏洞的目標並不一致。研究人員仍可透過產品內的回報機制舉報相關問題。（詳全文）

Anthropic AI模型 稽核

Anthropic開源AI模型安全稽核框架Petri

AI新創公司Anthropic日前開源一款AI模型安全稽核框架Petri，可派出自動稽核代理人與目標模型進行多輪互動，來探索、偵測模型在各種情境下的潛在弱點及不對齊行為。進一步來說，Petri內建111種高風險場景的指令，可根據多個維度來評分，標記潛在風險。這111種指令涵蓋欺騙用戶、諂媚、配合有害請求、自我保護、權力追求，以及獎勵駭取等情境，檢測模型於不同高風險場景中的反應。

Anthropic也用Petri測試市面上的14個前沿模型，包括自家的Claude Sonnet 4/4.5、Claude Opus 4.1，OpenAI的GPT-4o、Google的Gemini 2.5 Pro，xAI Grok-4、Moonshot AI的Kimi K2及o4-mini等，發現這些模型在111種高風險情境的測試中，都出現不同程度的不對齊行為。

其中，Claude Sonnet 4.5和GPT-5的整體風險最低，但Gemini 2.5 Pro、Grok-4和Kimi K2的「欺騙用戶」得分偏高，也就是說這些模型有更多主動欺騙的傾向。Anthropic也提醒，目前Petri仍受限於模擬環境真實度不足、稽核代理人能力有限，只能提供粗略的量化，但也足夠指出模型問題和改善方向。（詳全文）

圖片來源／Google DeepMind、微軟、OpenAI、Google

AI近期新聞

1. IBM推出AI軟體開發整合環境（IDE）Project Bob，還要納入Anthropic Claude、Mistral AI模型

2. Meta開源OpenZL壓縮框架原

資料來源：iThome整理，2025年10月

重點新聞（1003～1009）

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签