热点
关于我们
xx
xx
"
模型测试
" 相关文章
MultiZebraLogic: A Multilingual Logical Reasoning Benchmark
cs.AI updates on arXiv.org
2025-11-06T05:15:53.000000Z
Gemini 3.0 匿名上线
夕小瑶科技说
2025-10-21T14:53:53.000000Z
OpenAI is trying to clamp down on ‘bias’ in ChatGPT
The Verge - Artificial Intelligences
2025-10-10T20:15:14.000000Z
[分享创造] Sora2 第三方网站小活动:评论就送生成次数(前 10 个今晚发、后 30 个明天开奖)
V2EX
2025-10-04T06:30:35.000000Z
Don't Mock Machine Learning Models In Unit Tests
https://eugeneyan.com/rss
2025-09-30T11:09:28.000000Z
Don't Mock Machine Learning Models In Unit Tests
https://eugeneyan.com/rss
2025-09-30T11:09:28.000000Z
OpenAI、Anthropic罕见合作
36kr
2025-08-29T01:33:58.000000Z
OpenAI与Anthropic树立典范!AI老对手间开始“互测”模型安全性
深度财经头条
2025-08-28T03:28:32.000000Z
96%勒索率,Anthropic 对AI进行压力测试,顶尖模型集体“先保命再讲道德”
36氪 - 科技频道
2025-06-27T00:01:36.000000Z
测试暗示 Microsoft Copilot 可能会免费提供 ChatGPT 的 o4-mini-high
Cnbeta
2025-06-21T19:02:46.000000Z
觉醒第一步吗 OpenAI模型在研究中违抗命令 竟然篡改关机脚本
快科技资讯
2025-05-26T15:21:30.000000Z
OpenAI partner says it had relatively little time to test the company’s o3 AI model
TechCrunch News
2025-04-16T18:26:21.000000Z
号称“地球上最聪明的人工智能”,马斯克的 Grok 3 竟答不对 9.11 和 9.9 哪个大
IT之家
2025-02-19T04:18:36.000000Z
DeepSeek R1有没有赶上OpenAI o1? 八大场景测评结果出炉
机器之心
2025-01-30T06:37:13.000000Z
496GB显存!最壕DeepSeek玩家8台Mac跑R1
智源社区
2025-01-23T14:38:09.000000Z
最壕的DeepSeek玩家:10多万元买8台Mac、显存达496GB
快科技资讯
2025-01-22T10:16:21.000000Z
Gentrace Secures $8M Series A to Revolutionize Generative AI Testing
Unite.AI
2024-12-10T16:01:23.000000Z
AI开卷数学模型,哪家强?
虎嗅
2024-11-26T04:23:16.000000Z
Qwen2.5更新百万超长上下文,推理速度4.3倍加速,网友:RAG要过时了
智源社区
2024-11-20T14:38:33.000000Z
LLM tool功能横向测试 V0.5:不容乐观的现实
孔某人的低维认知
2024-11-19T11:15:43.000000Z