AI & Big Data 10月15日 12:25
AI在軟體開發與安全領域的最新進展
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本週重點新聞聚焦AI在軟體開發和安全領域的突破。Google DeepMind的CodeMender展現了AI自動偵測和修補軟體漏洞的能力,涵蓋了大量開源程式碼。微軟開源Agent Framework,簡化企業級AI代理的建置與部署。OpenAI推出AgentKit,優化AI代理的開發、評估和版本控制。此外,ChatGPT正轉型為應用程式平台,整合多項外部服務,提升使用者體驗。Google Gemini CLI擴充套件機制開放第三方整合,Databricks的Mooncake技術大幅提升代理型AI的效能。Google啟動AI產品抓漏獎勵計畫,Anthropic則開源AI模型安全稽核框架Petri,共同推進AI技術的發展與安全。

🤖 **AI驅動的軟體漏洞修補與開發效率提升**:Google DeepMind的CodeMender利用Gemini Deep Think模型,能自動偵測並修補軟體漏洞,已成功為多個開源專案提交安全修補,涵蓋數百萬行程式碼。同時,微軟開源的Agent Framework和OpenAI的AgentKit,則分別旨在簡化企業級AI代理的開發、部署與版本管理,並提供視覺化工作區和連接器註冊,大幅提升開發者和企業構建AI應用的效率。

🌐 **AI代理與應用生態系統的擴展**:ChatGPT正朝向應用程式平台發展,透過Apps SDK整合Booking.com、Spotify、Canva等多個外部應用,讓用戶能在對話中直接調用這些服務。Google的Gemini CLI也透過擴充套件機制,支援第三方工具整合,將日常工作流程匯集於單一命令列介面。這些發展預示著AI將更深入地融入我們的數位生活,形成更廣泛的應用生態系統。

🛡️ **AI安全監測與獎勵機制強化**:為應對AI發展帶來的安全挑戰,Google啟動了AI產品抓漏獎勵計畫(AI VRP),對關鍵AI產品設立不同等級的安全漏洞獎勵,鼓勵研究人員發現並報告潛在風險。Anthropic開源的Petri框架則提供自動化的AI模型安全稽核,透過模擬高風險情境,檢測模型的不對齊行為,並已用於測試多款主流AI模型,為AI模型的安全性和可靠性提供了更深入的洞察與評估工具。

重點新聞(1003~1009)

 CodeMender     DeepMind     漏洞修補  

DeepMind揭自家AI代理CodeMender可自動偵測軟體漏洞並修補

Google DeepMind最近揭露,他們正在研發中的AI代理CodeMender,可自動找出並修補軟體漏洞,還能重寫既有程式來移除風險。團隊指出,CodeMender在過去6個月已對多個開源專案提交72項安全修補,涵蓋了450萬行程式碼。

DeepMind之前就以Big Sleep和OSS-Fuzz展示AI發現零時差漏洞的潛力,但隨著AI發現漏洞的速度越來越快,人工修補和審核已經跟不上節奏。因此DeepMind開發CodeMender,以Gemini Deep Think模型驅動,會先對程式行為與語意進行推理,再決定修改策略,而且,系統在提出修補前,會經過自動驗證,只將符合條件的高品質修補交由人工審核。

CodeMender包括一組程式分析工具,涵蓋靜態分析、動態分析、差異測試、模糊測試與SMT求解器,再輔以可檢視程式行為的偵錯器與程式碼瀏覽工具。CodeMender也使用多代理設計,包括以大型語言模型打造的評析工具,能逐檔比對原始與修改後的差異、辨識可能的回歸點並觸發自我修正。此外,代理也能處理複雜的物件生命周期問題,甚至修改專案內部自訂的C程式碼生成系統,提出可驗證的修補方案。(詳全文)

 微軟     Agent Framework     AI代理  

開發企業級AI代理更容易,微軟開源Agent Framework

微軟最近開源Microsoft Agent Framework,讓開發者更容易建置和部署多代理(Multi-agent)系統。該框架將Semantic Kernel的企業級基礎,與AutoGen的多代理調度能力整合到執行環境中,提供從AI代理原型開發到生產部署的完整流程。目前該框架已進入公開預覽階段,支援MCP、A2A等協定,也與OpenAPI互通,讓AI代理在不同環境中協作。該框架還適用於Python、.NET程式語言。

微軟強調,Agent Framework的特色之一是企業即用。框架內建OpenTelemetry觀測能力,可追蹤每次工具呼叫與流程步驟,且同時具備長任務耐久機制,能在中斷後自動恢復運作。系統也支援人為核准(Human-in-the-loop),讓需要人工審核的任務能在介面或佇列中待准許後再執行。此外,框架可直接與GitHub Actions和Azure DevOps整合,支援CI/CD流程與異常追蹤,方便企業在部署後持續監控營運狀態。微軟同步更新VS Code AI Toolkit開發工具,開發者可在本地環境中建立、執行並視覺化多代理工作流程,降低開發門檻、加速迭代。(詳全文)

  OpenAI     AI代理     版本控管  

OpenAI公布代理人開發工具AgentKit

OpenAI在近日的Dev Day大會上推出AgentKit工具集,要協助開發者和企業更快地建置、部署AI代理應用,還優化了評估和微調工具。過往,開發者須手動整合四散的工具、缺乏版本控管,AI代理開發過程冗長且繁複。

AgentKit就是要解決這個問題,它的組成有Agent Builder、Connector Registry和ChatKit。其中,Agent Builder是一個視覺化工作區Canvas,可建立多代理工作流程和管理版本,使用者拖拉節點、連結工具就能建置控制邏輯,還能設定護欄。Connector Registry則能管理所有OpenAI產品資料和工具,能將ChatGPT和API的資料源整合到單一管理介面。同時,註冊中心(registry)還能透過預建的連接器,讓代理連結第三方系統如Dropbox、Google Drive和MCP伺服器等。ChatKit則能把可客製化聊天代理嵌入到應用程式工具組。

為確保品質,OpenAI也強化Eval評估工具,可針對代理工作流程進行端到端評估,並利用人類標註自動優化提示。同時,OpenAI還提供強化式微調(RFT)功能,開發者可用來客製化OpenAI的推理模型,現已能在OpenAI o4-mini使用。(詳全文)

  ChatGPT    應用程式      OpenAI  

ChatGPT變身為應用程式平臺

OpenAI最近宣布,要將ChatGPT整合外部應用程式,還預覽Apps SDK來讓開發者建置相容的應用程式。[首波上線的程式包括Booking.com](http://xn--booking-fw3kf48atk4a44ig73a8f0ahlk21nw91i.com/)、Canva、Coursera、Figma、Expedia、Spotify和Zillow,預計今年就會開放開發者提交應用程式,之後也會建立市集供程式上架。即日起歐盟以外的Free、Go、Plus與Pro用戶都可於ChatGPT中使用應用程式功能,但目前只開放英文指令。

使用者可直接在ChatGPT呼叫某個程式來回答問題,或者是在詢問時,由ChatGPT主動提出程式建議。比如,使用者可在ChatGPT直接點名Spotify來建立派對歌單,或是要Booking.com找出聖誕節的巴黎住處,或請Coursera推薦AI入門課程。與ChatGPT討論買房問題時,系統會建議呼叫買房應用程式Zillow,當你需要製作簡報時,ChatGPT會建議使用Canva。

今年預計上線的第二波應用則有健行路線規畫程式AllTrails、健身程式Peloton、餐廳訂位程式OpenTable與theFork、零售平臺Target,以及Uber。(詳全文)

  Google     Gemini CLI     第三方整合  

Gemini CLI推出擴充套件機制,開放支援第三方整合

Google宣布在Gemini CLI加入擴充套件機制,開發者可在終端機中安裝並啟用常用工具,將日常工作流程整合到同一命令列介面,減少各服務間的切換。每個擴充套件內建可即時上手的內建使用指引(Playbook),首次下指令即可得到可用結果,不必額外繁複設定。

使用者可透過指令來簡單安裝、移除擴充套件。Google還推出Gemini CLI Extensions清單頁,彙整Google、社群與其合作夥伴擴充套件,並以GitHub星數顯示熱門度,方便開發者挑選。Google強調,擴充套件不僅是連線器,更在封裝層面加入智慧引導。當使用者下指令時,Gemini CLI會參照擴充套件的內建使用指引,還可以結合本機專案脈絡和版本控制資訊,自動挑選並執行合適的工具。(詳全文)

  Databricks     代理型AI     效能  

代理型AI運作效能提升100倍的技術來了

Databricks 日前發表資料整合技術Mooncake,號稱能將代理型AI的運作效能提升100倍。該技術來自其9月底收購的新創公司Mooncake Labs,核心是基於Apache Iceberg開放表格格式的解決方案。

傳統上,用於「寫入」的OLTP(交易處理)與用於「讀取」的OLAP(分析處理)需透過耗時的ETL工作流程分別處理。但是,代理型AI需要自主系統在幾秒內完成資料接收、決策和行動,無法接受這種時間延遲。

於是,Mooncake技術緊密整合了儲存、索引和運算,解決交易與分析處理之間的管線和時間差,達到可即時分析的資料狀態。這項技術被視為Databricks Lakehouse資料湖倉整合架構的關鍵一步,使其能支援如詐欺偵測或生成式AI 代理人等自主應用的高速回饋循環。(詳全文)

  抓漏     Google     獎勵  

Google發表AI產品抓漏獎勵計畫

Google日前更新了專屬AI產品的抓漏獎勵計畫AI VRP,目的是要整合濫用和安全問題。新的AI VRP將產品分級,等級愈高獎金愈多,旗艦產品如Google Search、Gemini Apps等被列為最高級,而AI Studio、Jules與Google Workspace的非核心應用則被列為標準產品,而被整合於Google產品中的其它AI則被歸類為其它。

若在旗艦級AI產品中發現能修改受害者帳號或資料的安全漏洞(Rogue Actions),基本獎金為2萬美元;若報告品質高且漏洞具新穎性,最高可獲3萬美元獎勵。值得注意的是,Google特別澄清,越獄(Jailbreak)、提示注入(Prompt Injection)或對齊問題(Alignment Issues)並未被列入此次AI VRP的獎勵範圍。Google解釋,這些屬於內容問題,需要長期跨學科努力來改善,與VRP鼓勵回報安全漏洞的目標並不一致。研究人員仍可透過產品內的回報機制舉報相關問題。(詳全文)

  Anthropic     AI模型     稽核  

Anthropic開源AI模型安全稽核框架Petri

AI新創公司Anthropic日前開源一款AI模型安全稽核框架Petri,可派出自動稽核代理人與目標模型進行多輪互動,來探索、偵測模型在各種情境下的潛在弱點及不對齊行為。進一步來說,Petri內建111種高風險場景的指令,可根據多個維度來評分,標記潛在風險。這111種指令涵蓋欺騙用戶、諂媚、配合有害請求、自我保護、權力追求,以及獎勵駭取等情境,檢測模型於不同高風險場景中的反應。

Anthropic也用Petri測試市面上的14個前沿模型,包括自家的Claude Sonnet 4/4.5、Claude Opus 4.1,OpenAI的GPT-4o、Google的Gemini 2.5 Pro,xAI Grok-4、Moonshot AI的Kimi K2及o4-mini等,發現這些模型在111種高風險情境的測試中,都出現不同程度的不對齊行為。

其中,Claude Sonnet 4.5和GPT-5的整體風險最低,但Gemini 2.5 Pro、Grok-4和Kimi K2的「欺騙用戶」得分偏高,也就是說這些模型有更多主動欺騙的傾向。Anthropic也提醒,目前Petri仍受限於模擬環境真實度不足、稽核代理人能力有限,只能提供粗略的量化,但也足夠指出模型問題和改善方向。(詳全文)

圖片來源/Google DeepMind、微軟、OpenAI、Google

  AI近期新聞 

1. IBM推出AI軟體開發整合環境(IDE)Project Bob,還要納入Anthropic Claude、Mistral AI模型

2. Meta開源OpenZL壓縮框架原

資料來源:iThome整理,2025年10月

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

AI 軟體開發 漏洞修補 AI代理 應用程式平台 AI安全 CodeMender Agent Framework AgentKit ChatGPT Gemini CLI Petri
相关文章