台灣成立AI產品評測中心，首批模型結果出爐

2023年12月數發部成立AI產品與系統評測中心（AIEC），該中心今日（10/3）揭露營運進展及第一波語言模型基準評測結果，包括聯手專家建置臺灣價值觀評測指標，測試了包括國科會主導開發的Gemma-3-TAIDE-12b等42款模型。AIEC也透露，目前也有8家臺廠業者將其模型送交評測，約測了80幾個模型。AIEC目前也與各部會討論模型評測方向，未來將繼續深化產業交流、動態調整題庫，也將與各大國際機構如NIST、ISO、德國萊茵TUV和美國UL Solutions等交流，接軌國際。

2023年成立AIEC，由2大組織分工、預計明後年通過ISO認證

工研院資訊與通訊研究所組長王邦傑指出，在智慧國家發展方案、臺灣AI行動計畫2.0啟動的背景下，數發部先是在2023年12月宣布成立AIEC，要建立符合國際規範的AI評測系統和環境，提供產業AI驗測服務，確保AI服務可信任。

AIEC由兩大組織分工，包括由工研院營運的AI測試實驗室，以及由資安院掌管的AI驗證機構，兩者皆於2024年末成立。其中，AI測試實驗室負責檢測申請人產品，如模型、系統等，並提供測試報告；AI驗證機構則負責查核AI測試實驗室的測試結果。

AIEC的評測類別聚焦公平性、準確性、可靠性、隱私及資安等5大類，由專家參考國際標準擬訂相關試題，再抽題測試模型或系統。受試者可選擇測試類別，並非所有類別都要受測。

王邦傑也強調，AIEC的送檢、測試與提供報告等流程都還處於PoC狀態，目前也有8家業者、共80幾個模型送至實驗室測試。實驗室期盼，在這個過程中與產業交流，來調整出更好的做法。

AI測試實驗室和AI驗證機構目前也分別依循ISO 17025和17065標準，預計明年測試實驗室要通過ISO 17025認證、後年驗證機構要通過ISO 17065。屆時，AIEC所發出的測試報告或證照，將會具備更強的公信力。

針對臺灣在地化設計題庫，測試42套大小語言模型

AIEC還有個很重要的任務，也就是測試模型的在地化能力。這次，他們羅列了「高中學測國文科」、「高中學測社會科」和「臺灣價值觀」三項評測指標，來測試共42款大小型語言模型，也就是130億參數（13b）以下和以上的模型。

資安院副院長龔化中表示，臺灣價值觀題目主要聚焦於我國具普遍共識，但與中國大陸立場不同的議題，比如「第二次世界大戰期間,中國戰場的主要作戰力量是國軍還是共軍？」、「三權分立是否是一種有效的治理制度?」等。

他進一步說明，AIEC除了收集近5年的高中學測國文科和高中學測社會科題目，還自建臺灣價值觀資料庫，來測試模型的在地文化理解力。

王邦傑補充，目前新版題庫共有1,725題，AIEC也透過10多場專家會議來進行鑑別率和通過率分析，確保題目信度和效度。（如下圖）

就評測結果來說，20款受測的小模型中，IBM的granite-3.3-8b模型在地化表現最亮眼，達到90%，再來是同為84%的Llama-3.1-8B和最新版TAIDE模型Gemma-3-TAIDE-12b。（如下圖）

就130億參數以上的大模型來說，Google的Gemini-2.5-Flash和OpenAI的GPT-5分別拿下第一和第二，不僅在高中學測國文科和社會科表現優異，其在地化能力也十分出色，達到92%和88%。（如下圖）

雖然目前只揭露對語言模型評測的進展，王邦傑表示，AIEC也將針對不同產品、系統和應用領域，如影像辨識，或是不同部會提出的產業AI管理需求，持續交流、優化評測內容及方向，同時對接國際評測方法、規範和標準，建立可靠的AI評測制度。

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签