IT之家 10月14日 14:52
腾讯优图开源通用文本表示模型 Youtu-Embedding
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

腾讯优图实验室正式开源了面向企业级应用的通用文本表示模型 Youtu-Embedding。该模型在中文文本嵌入评测基准 CMTEB 上取得了榜首成绩,适用于企业客服、智能问答、内容推荐、知识管理等多种场景,尤其能为 RAG 检索增强生成系统提供高质量的文本嵌入。Youtu-Embedding 采用精密的三阶段训练流程和创新的微调框架,结合 LLM 高质量数据合成与难负例挖掘,有效解决了多任务学习中的“负迁移”问题,实现多任务协同训练。模型权重、推理代码及训练框架均已开源。

🏆 顶尖性能表现:Youtu-Embedding 在权威中文文本嵌入评测基准 CMTEB 上以 77.46 的高分荣登榜首(截至 2025 年 09 月),充分证明了其强大的文本表征能力,能够有效理解和处理文本的语义信息。

🧠 精密的三阶段训练流程:该模型通过“LLM 基础预训练 → 弱监督对齐 → 协同-判别式微调”的系统化训练流程,将大模型的广泛知识转化为专注于嵌入任务的判别能力,确保了模型在理解文本语义方面的卓越表现。

⭐ 创新的多任务微调框架:Youtu-Embedding 设计了统一的数据格式、任务差异化损失函数和动态单任务采样机制,有效解决了多任务学习中常见的“负迁移”问题,实现了不同任务间的稳定协同训练,并验证了其通用性和有效性。

🛠️ 精细化的数据工程与开源:模型训练过程结合了基于 LLM 的高质量数据合成技术和高效的难负例挖掘策略,为训练提供了坚实的数据基础。腾讯优图实验室已开源模型权重、推理代码及完整的训练框架,首个 20 亿参数模型已在 HuggingFace 发布,源代码亦在 GitHub 上公开。

IT之家 10 月 14 日消息,腾讯优图实验室今日正式开源 Youtu-Embedding。据介绍,这是一款面向企业级应用的通用文本表示模型,可广泛应用于企业客服、智能问答、内容推荐、知识管理等场景,尤其适用于构建 RAG 检索增强生成系统。

IT之家附官方介绍如下:

高质量的文本嵌入(Embedding)是驱动智能搜索、检索增强生成(RAG)以及推荐系统等应用的核心技术。

在传统的信息检索系统中,搜索主要依赖倒排索引(Inverted Index)与关键词匹配:系统将文本分解为词项,通过统计共现频率或关键词相似度来检索文档。这种方法虽然高效,但存在明显局限 —— 它依赖词面匹配,无法真正理解语义关系。例如,“汽车保险”和“车辆保障”在语义上接近,却因为缺少相同词汇而难以被匹配到。

文本嵌入(Embedding)技术通过深度神经网络将文本映射到高维向量空间,使语义相似的句子在该空间中距离更近。这一机制让模型能够基于语义层面的关联而非字面重合来完成检索,从而显著提升搜索和问答系统的“理解力”。在 RAG(Retrieval-Augmented Generation)场景中,高质量的文本嵌入模型可以为大语言模型(LLM)提供更准确、更上下文相关的外部知识,使生成的答案更加精确、可控与可解释。

为破解这一难题,腾讯优图实验室正式开源 Youtu-Embedding,这是一款面向企业级应用打造的通用文本表示模型,可同时胜任文本检索、意图理解、相似度判断、分类聚类等六大主流任务。它在信息检索(IR)、语义相似度(STS)、聚类、重排序和分类等一系列广泛的自然语言处理任务上,均展现出卓越的性能。

Youtu-Embedding 的核心优势包括:

🏆 顶尖性能:在权威的中文文本嵌入评测基准 CMTEB 上,以 77.46 的高分荣登榜首(截至 2025 年 09 月),证明了其强大的表征能力。

🧠 精密的三阶段训练:通过“LLM 基础预训练 → 弱监督对齐 → 协同-判别式微调”的训练流程,系统性地将大模型的广博知识转化为专用于嵌入任务的判别能力。

⭐ 创新的微调框架:设计了统一数据格式、任务差异化损失函数和动态单任务采样机制,解决了多任务学习中的“负迁移”难题,实现了多任务的稳定协同训练。(该框架在多种基础编码器上进行了验证,保障其通用性和有效性)

🛠️ 精细化的数据工程:结合了基于 LLM 的高质量数据合成技术与高效的难负例挖掘策略,为模型训练提供了最坚实的数据基础。

我们在此开源模型权重、推理代码及完整的训练框架,首个模型版本已在 HuggingFace 上发布,这是一个拥有 20 亿(2B)参数的通用语义表示模型。源代码已在 GitHub 上开源。

Hugging Face 链接:https://huggingface.co/tencent/Youtu-Embedding

GitHub 链接:https://github.com/TencentCloudADP/youtu-embedding

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Youtu-Embedding 腾讯优图 文本表示 自然语言处理 RAG 开源模型
相关文章