Cnbeta 前天 15:08
美团发布5600亿参数全模态开源大模型LongCat-Flash-Omni
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

美团LongCat团队推出了全新的开源大模型LongCat-Flash-Omni,拥有高达5600亿的参数规模,实现了全模态能力的突破,达到开源领域的先进水平。该模型是业界首个集“全模态覆盖、端到端架构、大参数量高效推理”于一体的开源大模型,首次在开源领域对标闭源全模态模型。其核心突破在于解决了“大参数与高效率”的矛盾,利用创新的ScMoE架构和高效多模态编解码器,实现了低延迟、高质量的音视频处理和流式语音生成。模型支持128K上下文窗口和超8分钟音视频交互,在多模态长时记忆、多轮对话和时序推理方面表现出色,图像理解性能与Gemini-2.5-Pro相当,短视频理解性能超越同类模型。

✨ **全模态能力突破与行业领先地位**:LongCat-Flash-Omni模型以其5600亿的总参数规模,在开源领域实现了全模态能力的重大突破,对标闭源先进模型,成为业界首个集“全模态覆盖、端到端架构、大参数量高效推理”于一体的开源大模型,标志着开源大模型在多模态能力上达到了新的高度。

🚀 **高效推理与架构创新**:该模型成功破解了“大参数与高效率”的行业难题,通过采用LongCat-Flash系列创新的ScMoE架构(含零计算专家)作为核心骨干,并结合高效多模态编解码器和“分块式音视频特征交织机制”,实现了在庞大参数规模下的低延迟、高质量音视频处理及流式语音生成,展现了极高的推理效率。

🧠 **强大的长上下文与多模态理解能力**:LongCat-Flash-Omni支持128K tokens的超长上下文窗口,并能处理超8分钟的音视频交互。在实际测试中,其在多模态长时记忆、多轮对话和时序推理等方面的能力表现突出,图像理解性能与闭源模型Gemini-2.5-Pro相当,短视频理解性能更是超越了同类开源模型,长视频处理能力也与之比肩。

📱 **实际应用与便捷体验**:为了让用户能够直接体验其强大功能,LongCat官方App已正式发布,并支持联网搜索功能。未来,该App还将推出视频通话功能,为用户提供更全面、便捷的多模态交互体验。

昨日,美团LongCat(龙猫)团队正式推出全新开源大模型LongCat-Flash-Omni。该大模型总参数规模高达5600亿,实现全模态能力突破,登顶开源领域最先进水平(SOTA)。

今年9月1日,美团正式发布LongCat-Flash系列模型,并开源了LongCat-Flash-Chat和LongCat-Flash-Thinking两大版本。

此次LongCat-Flash-Omni是系列全新家族成员。它也是业界首个实现“全模态覆盖、端到端架构、大参数量高效推理”于一体的开源大语言模型,首次在开源范畴内实现了全模态能力对闭源模型的对标。

该模型的核心突破在于破解了“大参数与高效率”的行业矛盾。

该模型总参数达5600亿(激活参数270亿),却依托LongCat-Flash系列创新的ScMoE架构(含零计算专家)作为LLM骨干,结合高效多模态编解码器和“分块式音视频特征交织机制”,最终实现低延迟、高质量的音视频处理与流式语音生成。

模型支持128K tokens上下文窗口及超8分钟音视频交互,在多模态长时记忆、多轮对话、时序推理等能力上具备显著优势。

实测显示,其图像理解性能与闭源全模态模型 Gemini-2.5-Pro 相当,且优于开源模型 Qwen3-Omni。短视频理解性能超越同类模型,长视频处理能力比肩Gemini-2.5-Pro。

落地体验上,LongCat官方App现已正式发布,支持联网搜索,还可以发起语音通话(视频通话功能敬请期待)。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

LongCat-Flash-Omni 开源大模型 全模态 美团 人工智能 LLM Multimodal AI Open Source Meituan AI
相关文章