普通人的AI自由 09月25日 18:02
AI技术月评:开源模型拉齐,OpenAI人事动荡
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本月AI技术发展重点在于开源模型与闭源模型的差距缩小,以及OpenAI内部人事变动。Meta开源了LLaMA 3.1-405B模型,性能接近GPT-4o和Claude 3.5 Sonnet;Mistral也开源了新模型,但限制商用。OpenAI推出GPT-4o mini提升性价比,但长输出版本仍需探索。此外,OpenAI总裁Greg Brockman休长假,联合创始人Johnson Schulman离职,创始人理念与当年背道而驰。Meta推出SAM 2视频生成模型,推动商业化进程。AI音乐和视频生成领域的数据爬取问题进入公众视野,引发版权争议。

🔍开源模型能力提升:Meta开源LLaMA 3.1-405B模型,性能接近主流闭源模型,标志着开源模型与闭源模型能力差距缩小。

📈商业模式转变:开源模型普及可能导致AI模型市场利润大幅收窄,迫使AI公司寻求新的商业模式。

🗣️OpenAI人事变动:OpenAI总裁Greg Brockman休长假,联合创始人Johnson Schulman离职,创始人理念与当年背道而驰,引发外界猜测。

🎥视频生成商业化:Meta推出SAM 2视频生成模型,实现对视频中物体的分割和追踪,推动视频生成商业化进程。

📊数据爬取问题:AI音乐和视频生成领域的数据爬取问题进入公众视野,引发版权争议,AI训练数据的价值问题凸显。

原创 Lian et Zian 2024-08-08 12:15 上海

排除噪音,抓住主线

排除噪音,抓住主线

“技术月评”的目的不是全面及时,而是退一步抓住重点,避免过载。以及,思考这些技术产生的商业与社会影响。

2024年7月AGI主线进展

[作者] MK, Lian正文

<1> LLaMA 3.1-405B / Mistral Large 2开源:开源模型拉齐与闭源的能力终于等到了开源模型与闭源模型基本拉齐的一天。这个淹没在大量PR中的新闻,可能有更深远的意义。

第一,这可能说明了闭源模型的研发进展遇到了一定瓶颈。如果真是这样的话,一方面我为“暂时还不能实现AGI/ASI”而稍微放心;另一方面,则是当前这轮AI的暴涨可能快要开始“挤水分”了,那么裸泳的团队们就要出局了。

第二,在大家都可以研究一流开源技术之后,中美的差距也会缩小。以及,开源的意义不仅是中美差距的缩小,而且让模型变成了没有区分度的commodity……那么,缺乏了垄断的模型市场的利润也会大幅收窄。

不过,闭源模型接下来也会进一步进展,不知道现在这种拉齐的状态会持续多久。

具体来讲,一是Meta开源LLaMA 3.1-405B。这个模型在很多测评集上达到/接近了GPT-4o和Claude 3.5 Sonnet的水平。

不过测评数据也不能全信:比如数学能力测评集GSM8k上,Meta用8-shot CoT去和Claude 0-shot的表现比较。以及,单纯靠测评集也有问题,Meta补充了一个人类盲评两个模型输出结果对比的结果,在设定的不同任务中,LLaMA 3.1-405B表现和GPT-4以及Claude 3.5 Sonnet平分秋色,结果几乎没有统计学差异,但还是全方面比GPT-4o略逊一筹。

顺带一提,这个测评结果中50%以上的情况人类测评专家已经难以评判两个模型输出结果的好坏了,随着客观的幻觉越来越少,如何评判语言模型的能力,以及如何判断模型输出结果的好坏,是每个人都会面临的难题。

此外,扎克伯格还专门发文,表示Meta会继续坚定开源路线。在Meta可以领先其他竞争对手之前,这番言论还是可信的。

链接:https://about.fb.com/news/2024/07/open-source-ai-is-the-path-forward/

第二,Mistral 也开源了好几个新模型,包括新的旗舰模型Mistral Large 2,不过开源的license限定不可商用。Mistral Large2-123B与Llama3.1-405B大约处在一个水平,不过参数量只有1/3,性价比上更加友好。

<2a> OpenAI:模型基础进展有限,性价比和长输出来凑OpenAI本月有几个小更新:先是推出了GPT-4o mini,作为替换GPT-3.5 turbo的新性价比模型,参数量不到百亿,效果更好、成本更低、推理速度更快,API的定价上直接冲着第一梯队厂商入门模型的最低价去的。

OpenAI还内测了一个长输出的版本,把最大输出token拉到64k,更新中提到“希望能帮助开发者探索更多应用场景”,但也没有具体的case举例。

GPT-4o模型前两天也刚刚更新了一个小版本,可以给出更严格准确的Json结构输出,还顺带悄悄地降价了,看来国外的价格战也在慢慢开打了。

此外,ChatGPT基于GPT-4o的高级语音功能“Her” 开始上线小范围测试,GPT-4o的效果应该还是会比上个月Kyutai Lab推出的Moshi语音聊天AI要好不少。以及,“语音助手”可能是AI与人交流的更“自然”的方式。

我们看到:一直专注提升旗舰模型能力的OpenAI也开始发力性价,可能也说明武器库已经展示得差不多了。坊间传闻是带有Agent能力的GPT5的训练遇到了瓶颈,可能要拖到2025年。

Exploration(2024); Yifei Gong with Dall-E

<2b> OpenAI:人事动荡、初心迷失一方面是技术迭代遇到瓶颈,另一方面则是创始团队分道扬镳。

其一,OpenAI总裁Greg Brockman宣布休长假到年底,要知道Greg可是当年Sam Altman“政变”中支持Sam的决定性人物。

其二,联合创始人之一Johnson Schulman宣布离职转投Anthropic。Johnson在Ilya Sutskever和Jan Leike离职之后,接棒担任安全团队负责人,并参与许多核心研究项目。不知道之后OpenAI还要不要安全团队。

第三,去年加入OpenAI的产品负责人Peter Deng也已经离职。

Source:腾讯科技

这些离职都指向一个根本问题:OpenAI当前的理念已和当年创立时背道而驰。几个可能猜测:

Devotion (2024); by Lian, with Dall-E

<3> Meta SAM 2视觉分割模型:视频生成迈向商业化“有用”的一大步去年Meta推出的SAM (Segment Anything Model),实现了对任意图像中物体的分割。

SAM 2把这一能力拓展到了视频,可以指定分割和追踪视频中的物体,并且对视频中的物体运动、变形、遮挡、光线变化等干扰因素有一定的泛化能力。这个能力一方面会帮助视频生成模型更好地理解物理世界,生成更可控、更真实的视频。因此,SAM 2是视频生成商业化的重要基础能力。它比大量国内AI视频生成厂商近期做的PR(详情见后文)要重要得多。

<4> “数据爬取问题”进入公众视野在AI音乐大火之后,领头的Suno和Udio正在面临音乐版权三巨头UMG唱片公司、索尼音乐娱乐公司、华纳音乐集团联合起诉。音乐一直以来因为高创作门槛,主要由少数专业艺术家进行创作,因此唱片公司通过签约发行等方式,掌握大量版权,形成了音乐商业化中非常重要的版权生意,光靠抖音、youtube等流媒体上的音乐版权就是非常大的收入。版权三巨头的市场额占到三分之二,自然对AI带来的音乐UGC浪潮十分紧张。

在视频生成领域,视频爬取更是随处可见。本月Runway员工爆料的Excel文件明确表示其有组织有预谋地无视版权爬取各类视频。其中 YouTube 上的视频占据了一大部分,光是「推荐油管频道」就有 3968 个。还有 14 个在线影视资源网站。其他家视频生成的网站也都是一样,快手可灵更是毫不避讳谈到自己的“平台数据优势”。于是,老铁们辛辛苦苦拍的视频最终还是被平台的AI吃掉了,而老铁们本身又得到了什么呢

可以想见的是,AI公司将面临越来越多类似的挑战。

于此同时,AI训练数据的价值问题也越发凸显。一方面,大家都在强调“人生成的原创数据”的重要性(AI合成数据只能做为一部分训练数据);而另一方面,真正生成这些数据的“老铁们”却并没有从中获取任何价值。

Big Project (2024), Yifei Gong, with Dall-E

<5> 其他重要但非主线新闻国内视频生成PR战:“一个月蹦出4个国产Sora,‘拍个手’集体阵亡”(量子位)

附:主要视频生成模型2024.7

*开源了同系列中的小参数2B版本,线上的更好版本仍然闭源

最后,悼念李政道先生仙逝。

李政道, 1926.11.24—2024.8.4.,1957年诺贝尔物理学奖得主。因宇称不守恒、李模型(Lee Model)、相对论重离子(RHIC)物理、量子场论的非拓扑性孤立子和孤立子星等成就而知名 (wikipedia)

李政道:物理学之外,天才的责任(by: 晚点LatePost)

前文

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

AI 开源模型 闭源模型 OpenAI Meta LLaMA Mistral 视频生成 数据爬取 版权
相关文章