美团发布5600亿参数全模态开源大模型LongCat-Flash-Omni

Cnbeta 前天 15:08

../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

美团LongCat团队推出了全新的开源大模型LongCat-Flash-Omni，拥有高达5600亿的参数规模，实现了全模态能力的突破，达到开源领域的先进水平。该模型是业界首个集“全模态覆盖、端到端架构、大参数量高效推理”于一体的开源大模型，首次在开源领域对标闭源全模态模型。其核心突破在于解决了“大参数与高效率”的矛盾，利用创新的ScMoE架构和高效多模态编解码器，实现了低延迟、高质量的音视频处理和流式语音生成。模型支持128K上下文窗口和超8分钟音视频交互，在多模态长时记忆、多轮对话和时序推理方面表现出色，图像理解性能与Gemini-2.5-Pro相当，短视频理解性能超越同类模型。

✨ **全模态能力突破与行业领先地位**：LongCat-Flash-Omni模型以其5600亿的总参数规模，在开源领域实现了全模态能力的重大突破，对标闭源先进模型，成为业界首个集“全模态覆盖、端到端架构、大参数量高效推理”于一体的开源大模型，标志着开源大模型在多模态能力上达到了新的高度。

🚀 **高效推理与架构创新**：该模型成功破解了“大参数与高效率”的行业难题，通过采用LongCat-Flash系列创新的ScMoE架构（含零计算专家）作为核心骨干，并结合高效多模态编解码器和“分块式音视频特征交织机制”，实现了在庞大参数规模下的低延迟、高质量音视频处理及流式语音生成，展现了极高的推理效率。

🧠 **强大的长上下文与多模态理解能力**：LongCat-Flash-Omni支持128K tokens的超长上下文窗口，并能处理超8分钟的音视频交互。在实际测试中，其在多模态长时记忆、多轮对话和时序推理等方面的能力表现突出，图像理解性能与闭源模型Gemini-2.5-Pro相当，短视频理解性能更是超越了同类开源模型，长视频处理能力也与之比肩。

📱 **实际应用与便捷体验**：为了让用户能够直接体验其强大功能，LongCat官方App已正式发布，并支持联网搜索功能。未来，该App还将推出视频通话功能，为用户提供更全面、便捷的多模态交互体验。

昨日，美团LongCat（龙猫）团队正式推出全新开源大模型LongCat-Flash-Omni。该大模型总参数规模高达5600亿，实现全模态能力突破，登顶开源领域最先进水平（SOTA）。

今年9月1日，美团正式发布LongCat-Flash系列模型，并开源了LongCat-Flash-Chat和LongCat-Flash-Thinking两大版本。

此次LongCat-Flash-Omni是系列全新家族成员。它也是业界首个实现“全模态覆盖、端到端架构、大参数量高效推理”于一体的开源大语言模型，首次在开源范畴内实现了全模态能力对闭源模型的对标。

该模型的核心突破在于破解了“大参数与高效率”的行业矛盾。

该模型总参数达5600亿（激活参数270亿），却依托LongCat-Flash系列创新的ScMoE架构（含零计算专家）作为LLM骨干，结合高效多模态编解码器和“分块式音视频特征交织机制”，最终实现低延迟、高质量的音视频处理与流式语音生成。

模型支持128K tokens上下文窗口及超8分钟音视频交互，在多模态长时记忆、多轮对话、时序推理等能力上具备显著优势。

实测显示，其图像理解性能与闭源全模态模型 Gemini-2.5-Pro 相当，且优于开源模型 Qwen3-Omni。短视频理解性能超越同类模型，长视频处理能力比肩Gemini-2.5-Pro。

落地体验上，LongCat官方App现已正式发布，支持联网搜索，还可以发起语音通话（视频通话功能敬请期待）。

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签