三花AI 09月12日
AI 领域动态:字节、腾讯、美团、OpenBMB 等开源新模型与功能
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

近期 AI 领域迎来多项重要进展。微软 Copilot Labs 推出音频表达实验性功能,允许用户自定义 AI 语音风格。字节开源 USO 模型,整合风格与主体驱动的图像生成框架,并提供在线 demo。腾讯 Hunyuan-MT-7B 开源了支持 38 种语言(含中国少数民族语言)的翻译模型。美团开源了 560B 参数的 LongCat-Flash MoE 模型,可高效推理。OpenBMB 发布 UltraRAG 2.0,一个基于 YAML 配置即可实现多阶段 RAG 推理的轻量级框架。这些开源项目为 AI 研究和应用提供了更多可能性。

💡 **AI 语音定制化服务拓展**:微软 Copilot Labs 推出了名为“音频表达”(Audio Expression)的实验性功能,允许用户通过输入文本提示词,让 AI 以不同的语音风格进行朗读。该功能目前完全免费,但仅支持英语,为用户提供了 AI 语音表达的个性化选择。

🎨 **图像生成框架整合与优化**:字节开源的 USO 模型是一项创新,它成功地将“风格驱动”和“主体驱动”这两类图像生成任务统一在一个框架下。该模型基于 FLUX.1-dev 微调,提供了 LoRA 权重与投影模型,支持四种典型的推理模式,包括精准主体控制、灵活风格迁移、IP-风格混合创作以及多风格融合生成,并提供了在线 demo 供用户体验。

🌍 **多语言翻译能力大幅提升**:腾讯开源的 Hunyuan-MT-7B 翻译模型系列,包含了主模型和业界首个开源翻译集成模型。该系列模型支持 38 种语言之间的互译,尤为突出的是其对五种中国少数民族语言的支持,极大地扩展了跨语言沟通的可能性。

🚀 **大规模 MoE 模型的高效推理**:美团开源的 LongCat-Flash 模型是一款拥有 560B 参数的混合专家模型(MoE)。其核心优势在于采用动态计算机制,可根据上下文需求灵活激活 186 亿至 313 亿参数,平均仅需 270 亿参数即可完成推理,实现了参数规模与推理效率的良好平衡。

🔧 **简化 RAG 系统构建**:OpenBMB 开源的 UltraRAG 2.0 是首个基于 Model Context Protocol(MCP)架构设计的轻量级 RAG 系统构建框架。用户只需编写 YAML 配置文件,即可用极少的代码量快速构建多阶段推理系统,大大降低了 RAG 系统的开发门槛。

原创 小茸茸 2025-09-01 10:39 重庆

字节开源 USO 模型:统一风格与主体驱动的生成框架;腾讯 Hunyuan-MT-7B:开源 38 种语言翻译模型;OpenBMB 开源 UltraRAG 2.0:YAML 配置实现多阶段 RAG 推理

微软 Copilot Labs 音频表达功能:AI 语音风格自定义

微软在 Copilot Labs 上线了实验性功能「音频表达(Audio Expression)[1]」,用户通过输入提示词,可让 AI 以不同语音风格朗读文本。

目前完全免费,不过仅支持英语,佬们可以试试看。

字节开源 USO 模型:统一风格与主体驱动的生成框架

USO 模型[2]是字节开源的一项创新框架,将“风格驱动”与“主体驱动”两类图像生成任务统一整合。该模型基于 FLUX.1-dev 微调,提供了 LoRA 权重与投影模型,支持四种典型推理模式:精准主体控制、灵活风格迁移、IP-风格混合创作以及多风格融合生成。

官方还贴心地提供了在线 demo[3],佬们可以直接试玩。

腾讯 Hunyuan-MT-7B:开源 38 种语言翻译模型

Hunyuan-MT-7B[4] 是腾讯开源的翻译模型系列,包含翻译主模型 Hunyuan-MT-7B 以及业界首个开源翻译集成模型 Hunyuan-MT-Chimera-7B。

支持38种语言互译,甚至包括五种中国少数民族语言,佬们可以在混元官网在线免费用

美团 LongCat-Flash:开源 560B MoE 模型

LongCat-Flash 是美团开源的一款 560B 参数混合专家模型(MoE),采用动态计算机制,能根据上下文需求灵活激活 186 亿至 313 亿参数,平均仅需 270 亿参数即可高效完成推理。

该模型遵循 MIT 许可证开放权重,佬们也可以直接访问 LongCat AI[5]在线体验。

OpenBMB 开源 UltraRAG 2.0:YAML 配置实现多阶段 RAG 推理

OpenBMB 开源的 UltraRAG 2.0(UR-2.0)[6]是首个基于 Model Context Protocol(MCP)架构设计的轻量级 RAG 系统构建框架。

最厉害的是,你只需要编写 YAML 配置文件,就能以极低的代码量快速构建多阶段推理系统!

完整的详细使用文档可以查看官网,上手超简单,不过想要做好,不写代码是不可能的。


如果你喜欢《一觉醒来 AI 界发生了什么》系列的话,请 关注点赞在看收藏分享 五连警告,这对我真的很重要

Reference

[1] Copilot Labs 音频表达功能: https://copilot.microsoft.com/labs/experiments/audio-expression

[2] USO 模型 GitHub 官网: https://github.com/bytedance/USO

[3] USO 在线体验页面: https://huggingface.co/spaces/bytedance-research/USO

[4] Hunyuan-MT 开源项目: https://github.com/Tencent-Hunyuan/Hunyuan-MT

[5] LongCat 在线体验: https://longcat.ai

[6] UltraRAG 2.0 官网: https://ultrarag.openbmb.cn

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

AI 开源 模型 计算机视觉 自然语言处理 机器学习 ByteDance Tencent Meituan OpenBMB USO Hunyuan-MT LongCat-Flash UltraRAG Copilot Labs 图像生成 翻译模型 MoE RAG
相关文章