机器之心 21小时前
字节跳动发布全模态嵌入基础模型SAIL-Embedding
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

字节跳动抖音SAIL团队联合香港中文大学MMLab提出了SAIL-Embedding,一个专为大规模推荐场景设计的全模态嵌入基础模型。该模型突破了传统多模态模型在模态支持单一、训练不稳定、领域适配性差等方面的局限,实现了视觉、文本、音频的统一表征。SAIL-Embedding采用全模态输入,能够处理视频关键帧/封面、标题/标签/OCR/ASR文本、背景音乐/语音等多种模态信息。为解决大规模训练中的问题,模型引入了动态难负样本挖掘和自适应多源数据平衡策略。其训练体系覆盖基础能力、任务适配和推荐增强三个阶段,并通过用户行为信号进行增强训练,以更好地服务于推荐场景。在标准数据集和抖音真实业务场景中的测试结果均显示,SAIL-Embedding性能优越,显著提升了多项推荐指标。

💡 **全模态统一表征突破输入局限**:SAIL-Embedding 能够整合视频、文本和音频等多种模态信息,实现跨模态的统一理解与表征。这解决了传统模型依赖单一模态或仅支持图文的不足,使其能更全面地捕捉短视频内容的关键信息,例如同时利用画面内容、字幕文本与背景音效,从而避免因信息缺失导致的语义偏差。

⚙️ **工业级训练稳定性与效率提升**:针对大规模训练中的挑战,SAIL-Embedding 引入了动态难负样本挖掘机制,通过自适应调整相似度阈值来筛选“难区分”的负样本,使模型能更聚焦于细粒度语义差异,提升训练效率。同时,自适应多源数据平衡策略利用 Sinkhorn 算法调整各数据源权重,减少人工调参,兼顾数据质量与多样性,有效缓解了工业数据与开源数据的领域鸿沟。

🚀 **多阶段训练与推荐增强适配工业场景**:SAIL-Embedding 的训练体系遵循“基础能力-任务适配-推荐增强”的路径,从大规模预训练奠定基础,到聚焦下游任务优化适配性,再通过难负样本微调强化判别能力。更重要的是,它融入了推荐感知的增强训练,通过序列到物品和 ID 到物品的知识蒸馏,将用户行为信号融入多模态表征,使其嵌入结果更贴合真实推荐场景的需求,从而在抖音等平台的实际应用中带来了显著的业务指标提升。

📈 **实测性能卓越,刷新多任务SOTA**:无论是离线标准数据集的基准测试,还是抖音真实业务场景的在线实验,SAIL-Embedding均展现出强大的性能。在多场景检索和分类任务中,其综合表现显著优于CLIP和VLM等模型,在AUC和Recall等关键指标上取得领先。在抖音的Feed流、冷启动、精选等核心推荐场景中,SAIL-Embedding通过潜入向量和嵌入离散化语义ID等方式赋能推荐全链路,带来了持续的LT和AUC增益,验证了其在富模态推荐场景中的巨大推广价值。


在短视频推荐、跨模态搜索等工业场景中,传统多模态模型常受限于模态支持单一、训练不稳定、领域适配性差等问题。


近日,字节跳动抖音 SAIL 团队联合香港中文大学 MMLab 提出 SAIL-Embedding——一款专为大规模推荐场景设计的全模态嵌入基础模型,不仅实现了视觉、文本、音频的统一表征,更在抖音真实业务场景中带来显著效果提升,相关技术报告已正式公开。



论文标题:SAIL-Embedding Technical Report: Omni-modal Embedding Foundation Model

技术报告:https://arxiv.org/pdf/2510.12709

HuggingFace:https://huggingface.co/BytedanceDouyinContent/collections


SAIL-Embedding 能力概览

突破传统局限:全模态 + 工业级优化双管齐下

现有多模态嵌入模型主要分为两类:以 CLIP 为代表的双塔架构,虽高效但模态融合浅;以 MLLM 为基础的融合架构,虽语义能力强却多局限于图文模态。SAIL-Embedding 则从根源上解决这些痛点:


全模态输入:覆盖短视频核心信息维度


不同于仅支持图文的传统模型,SAIL-Embedding 可处理任意模态组合——包括视觉模态侧的视频关键帧/封面、文本模态侧的标题/标签/OCR/ASR 文本、以及音频模态侧的背景音乐/语音,以适配抖音等短视频平台的信息结构。例如,在视频检索任务中,模型能同时利用画面内容、字幕文本与背景音效,避免单一模态信息缺失导致的语义偏差。


SAIL-Embedding 架构图


训练稳定性升级:动态难负样本 + 自适应数据平衡


为解决大规模训练中的噪声干扰与数据分布不均问题,团队提出引入两种策略:


动态难负样本挖掘: 通过 F1 分数自适应确定相似度阈值,筛选「难区分」的负样本(如主题相似但内容不同的视频),让模型更聚焦细粒度语义差异,避免简单负样本导致的训练低效。


自适应多源数据平衡: 基于 Sinkhorn 算法计算训练集与验证集的分布相似度,自动分配各数据源权重,减少人工调参依赖,同时兼顾数据质量与多样性,缓解工业数据与开源数据的领域鸿沟。


创新训练体系:从内容理解到推荐适配的全链路优化

SAIL-Embedding 的训练并非单一阶段,而是一套覆盖「基础能力-任务适配-推荐增强」的多阶段体系,确保模型既能理解内容语义,又能贴合真实推荐场景需求:


内容感知渐进式训练:从通用到领域的精准过渡


训练分三阶段逐步深入:


第一阶段: 用超 10B 样本的大规模多模态数据(含图文音)预训练,奠定基础语义理解能力;

第二阶段: 聚焦与下游任务(如视频检索、标签分类)对齐的高质量数据,优化任务适配性;

第三阶段: 引入难负样本微调,强化模型对相似内容的判别能力。


内容感知的渐进式训练


推荐感知的增强训练:融入用户行为信号


针对推荐场景,团队将多模态表征向用户历史序列表征和线上 ID 表征两个维度进行知识蒸馏以融于用户协同行为信息:


序列到物品蒸馏: 通过多维度的用户历史兴趣序列筛选机制,利用用户具有正向交互行为的历史观看序列(如最近 10 个观看视频)与目标视频的关联,让模型学习用户兴趣的时序延续性;


ID 到物品蒸馏: 对齐推荐系统中的多元化 ID 表征嵌入,将用户偏好信号(如点击、关注等)融入多模态表征,使嵌入结果更贴合推荐侧应用需求。


协同感知的两阶段推荐增强训练


实测性能:刷新多任务 SOTA,抖音业务指标显著提升

无论是标准数据集的基准测试,还是抖音真实场景的在线实验,SAIL-Embedding 均展现出卓越性能:


离线任务性能:多场景检索与分类任务综合领先


(1) Item-to-Item Retrieval (物品到物品检索) 


在 21 个涵盖内容理解、搜索,以及协同感知的多任务场景下,SAIL-Embedding 显著优于 CLIP-based 模型与 VLM-based 的模型:



(2) Query-to-Item Retrieval (查询到物品检索) 


在 9 个涵盖检索为导向和分类为导向的多任务场景下,模型的 AUC 与 Recall 指标均取得领先:



在线落地效果:抖音多场景推荐指标显著提升


在抖音 Feed 流、冷启动、抖音精选、消息推送等核心场景中,SAIL-Embedding 通过潜入向量与嵌入离散化的语义 ID 两种形式赋能推荐全链路,带来了一致的 LT 和 AUC 增益,体现了其显著的业务应用潜力。



SAIL-Embedding 的核心价值在于,它不仅是一款性能领先的全模态嵌入模型,更构建了一套从学术研究到工业落地的完整解决方案:通过全模态架构突破输入局限,用动态数据策略解决训练稳定性问题,以推荐增强训练填补产业鸿沟,最终在抖音真实场景中验证了技术价值,在短视频、直播等富模态推荐场景中,具备极强的推广价值。


抖音 SAIL 团队在未来将进一步探索 VLMs 与推荐系统的深度融合,例如通过生成式任务注入推荐知识,让模型不仅能「理解」内容,更能「预测」用户偏好。



© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com


文章原文

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

SAIL-Embedding 多模态嵌入 推荐系统 字节跳动 短视频 AI 深度学习 全模态 Omni-modal Embedding Recommendation System ByteDance Short Video Artificial Intelligence Deep Learning
相关文章