AI & Big Data 09月19日
Hugging Face 事件凸顯AI供應鏈安全與模型卡的重要性
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

2023年7月,Hugging Face爆發安全事件,一名惡意使用者透過竊取的員工密碼控制了Meta和Intel的組織,暴露了AI供應鏈潛在的風險。此事件引發了對AI模型安全性的廣泛討論。進一步的研究發現,大量Hugging Face API token洩露,使攻擊者有機會替換可信賴的模型。為應對此挑戰,Hugging Face開發了模型卡,提供模型描述、訓練資料、預期用途、倫理考量、效能指標和限制等關鍵資訊,以提高AI模型的透明度和可信度。模型卡與SBOM(軟體物料清單)在提升軟體透明度方面有異曲同工之妙,但側重點不同。SBOM更側重於軟體組件的詳細清單,而模型卡則專注於ML模型的特性。CycloneDX標準和ML-BOM的興起,進一步推動了AI系統的可追溯性、安全性和合規性。

🛡️ **AI供應鏈安全面臨嚴峻挑戰:** Hugging Face的安全事件揭示了惡意行為者可能利用竊取的憑證滲透到AI供應鏈中,替換受信任的模型,對依賴這些模型的應用程式構成重大風險。大規模API token洩露事件進一步證實了這一威脅的普遍性。

📝 **模型卡提升AI透明度與可信度:** Hugging Face開發的模型卡標準化工件,旨在為AI模型提供詳盡資訊,包括模型描述、訓練資料、預期用途、倫理考量、效能指標和限制。這有助於使用者全面了解模型的特性,促進負責任的AI使用。

📦 **SBOM與模型卡的異同及ML-BOM的演進:** 模型卡和SBOM都是提高軟體透明度的工具,但SBOM側重於軟體組件清單,而模型卡則聚焦ML模型的運行特徵和倫理含義。CycloneDX作為SBOM標準,其ML-BOM功能進一步擴展了SBOM的應用範圍,涵蓋ML模型、資料集等,增強了ML系統的可追溯性、安全性和合規性。

🔒 **ML-BOM在安全與合規中的關鍵作用:** ML-BOM(機器學習物料清單)透過記錄ML模型來源、版本、依賴關係和效能指標,顯著提升了ML系統的可重複性、治理能力、風險評估和合規性。這對於遵守GDPR、CCPA等法規以及快速識別和修復潛在漏洞至關重要。

在2023年7月,Hugging Face發布了一則推文:「我們正在調查一起事件,一名惡意使用者透過重複使用的員工密碼(這些密碼在其他網站的資料外洩中已被洩漏)控制了Meta/Facebook和Intel的Hub組織。」

雖然該事件的全面影響尚不清楚,但它揭示了惡意行為者可能將自己植入供應鏈並更改被認為來自可信來源(在本例中為Meta或Intel)組件的可能性。這事件引發了人工智慧領域關於供應鏈安全一系列廣泛的嚴肅討論。

雖然第一起事件並未被廣泛報導,看似是單一個案,但Lasso Security團隊在2023年12月發布的研究表明,超過1,600個Hugging Face API token(存取權杖)被揭露。該團隊可以使用這些API token存取700多個組織的Hugging Face帳戶,其中包括Meta、Microsoft、Google和VMware等主要參與者,這說明了存在明顯的風險:惡意第三方可以將一個知名的、值得信賴的模型替換為經過自己修改的模型──這對於任何可能下載和使用此類模型的應用程式來說都是巨大的風險。

模型卡

在前面,我們了解到Hugging Face已經成為交換機器學習模型和訓練集的主要平台。由於需要追蹤重要的模型資訊及相依性,該公司開發了一種稱為模型卡(model Card)的標準化工件。

Hugging Face的模型卡在於提供關於其平台上託管的每個AI模型的全面資訊,目標是讓使用者(無論是開發人員、研究人員或最終使用者)清楚了解模型的功能、限制和預期用途,這種方法與AI社群的努力一致,以確保AI模型能被合乎道德和有效的使用。

以下是Hugging Face模型卡的幾個重點:

 模型描述  每個模型卡通常以模型的描述開始,包括其目的、架構和訓練資料,這讓使用者能夠對模型的設計目的及其工作原理有一個高層次的了解。

 訓練資料  模型卡通常會詳細說明用於訓練模型的資料集。了解模型的潛在偏見和限制非常重要,因為訓練資料的性質會顯著地影響模型的表現和行為。

 預期用途  模型卡包含有關模型預期用途的資訊,這有助於使用者了解模型預期表現良好的環境。這部分也可能包括使用建議或指南。

 倫理考量  許多模型卡都涉及倫理考量層面,例如模型中的潛在偏見及其部署對各利害關係人的影響,這反映出人們越來越看重AI技術對於社會以及永續發展的影響。

 效能指標  這些模型卡通常包含各種效能指標,以向使用者展示模型的效能如何。這些指標通常是基於模型在基準資料集或其設計的特定任務上的表現。

 限制  模型卡的關鍵組成部分是對模型限制的討論,這包括模型可能無法如預期執行的領域、某些應用中的潛在風險或模型應謹慎使用的領域。

註:其他LLM供應商(例如AWS)已經開始研發自己的模型卡格式。這個領域可能會出現格式碎片化(fragmentation)的情況,因此你需要依專案需求慎選適合的格式。不過,從概念上來看,你應該會發現它們與上述的討論大同小異。

模型卡與SBOM的比對

模型卡和SBOM(軟體物料清單,software bill of material)都是目標在於提高複雜軟體系統(包括AI模型)的透明度和理解性的工具。儘管如此,它們還是有不同的用途,所包含的資訊類型也有所不同。

 目的和重點 

模型卡的主要目的是為機器學習模型的功能、行為和限制提供清晰、易於理解的描述。它們專注於效能、倫理考量、使用範例和訓練模型時使用的資料。模型卡對於需要了解ML模型的操作特徵和道德含義的最終使用者和開發人員來說非常方便。

SBOM本質上是所有軟體產品組件的詳細清單。SBOM列出並詳細說明軟體產品中包含的每一個第三方和開源軟體,它們對於理解軟體的組成非常重要,特別是對於追蹤漏洞、授權與相依性。

 內容 

模型卡通常包括模型架構、訓練資料、效能指標、預期用途、倫理考量和限制等資訊。他們還可能提供對模型開發過程以及模型中任何潛在偏見的見解。

SBOM包含每個軟體組件、版本、修補程式狀態、授權的詳細列表,有時還包含每個組件的來源。這些資訊對於漏洞管理、合規性檢查和軟體維護是很重要的。

 在安全性及合規性的應用 

雖然模型卡不直接解決安全漏洞,但可以間接表示模型的穩健性和可靠性,這是人工智慧系統安全性的重要關鍵。它們還可以突顯可能會影響安全的道德風險或偏誤。

SBOM直接用於安全性和合規性上,對於漏洞管理非常重要,因為安全團隊可以藉由SBOM快速識別第三方組件中新發現的漏洞是否影響其軟體,也被應用於授權合規性和風險管理。

 產業應用 

模型卡主要用於人工智慧和機器學習,是Responsible AI(負責任AI)運動的一部分。

SBOM廣泛適用於所有軟體開發,並且日益成為軟體文件標準的一部分,特別是在高度重視安全性及合規性的產業中。

CycloneDX:SBOM的標準

在CycloneDX推出之前,不同工具使用的SBOM格式多樣且不統一,阻礙了共享和互通性。CycloneDX透過提供統一的語言來描述軟體組件解決了這個問題,促進各種工具和平台的無縫整合。

作為OWASP管理下的開源專案,CycloneDX受益於社群驅動的方法,這確保它能持續發展以滿足各行業不斷變化的需求,並且每個人都可以使用。清楚了解系統的軟體組件對於有效的漏洞管理和修補至關重要,而CycloneDX簡化了識別和解決漏洞的過程,進而增強了整體資安態勢。

ML-BOM的興起

CycloneDX 1.5的一項關鍵創新是ML-BOM(機器學習物料清單),它可以說是ML應用程式的重大變革,此功能允許在SBOM中全面列出ML模型、演算法、資料集、訓練管道和框架。它記錄了模型來源、版本控制、依賴關係和效能指標等基本細節,這些資訊有助於機器學習系統的再現性、治理、風險評估和合規性。

在透明度和理解方面,ML-BOM讓ML開發和部署所包含的組件和流程清晰可見,這有助於利害關係人掌握機器學習系統的組成、識別潛在風險並考慮道德影響。在安全領域,它可以識別和修復機器學習組件及其依賴組件中的漏洞。

合規性是ML-BOM具有重大影響的另一個關鍵領域,它透過確保系統的透明度和治理,來支援遵守GDPR和CCPA等法規要求。

除了這些核心領域之外,ML-BOM還提供其他優勢。它提高了再現性,允許複製實驗和結果,這對於機器學習系統的科學嚴謹性和信任至關重要。協力合作也變得更加簡便,因為ML-BOM使團隊和組織之間的專案共享和合作變得更容易。最後,它是知識管理的有效工具,可以保存有關系統的關鍵資訊以供將來維護、更新和稽核。(本文摘錄整理自《LLM資安教戰手冊》,碁峰資訊提供)

圖片來源_碁峰資訊

 書名  LLM資安教戰手冊(The Developer's Playbook for Large Language Model Security)

Steve Wilson/著;洪巍恩/譯

碁峯資訊出版

定價:580元

圖片來源_Amazon

 作者簡介 

Steve Wilson

Steve Wilson是Exabeam的產品長,也是人工智慧和網路安全領域公認的領導者。他曾服務於Citrix、Oracle和Sun Microsystems等市值數十億美元的科技公司,擁有超過25年建置軟體平台的經驗。Steve也是《Java Platform Performance: Strategies and Tactics》一書的作者。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Hugging Face AI安全 供應鏈安全 模型卡 SBOM ML-BOM 負責任AI Hugging Face AI Security Supply Chain Security Model Cards SBOM ML-BOM Responsible AI
相关文章