基于WebRTC的极低延时直播技术RTM

字节跳动技术团队 09月25日 18:01

本文介绍了基于WebRTC的大规模极低延时直播技术RTM。针对传统直播协议HTTP-FLV的瓶颈，RTM通过集成媒体处理流水线、音频校准式音视频同步和启播阶段码率限制调度等设计，有效降低了端到端延迟，提升了用户参与度指标。实验结果表明，RTM在主客观指标上均实现显著提升，相较于竞品在世界杯、亚运会等赛事场景中，端到端延迟优势超过3.5秒。

🔧集成媒体处理流水线通过复用解码器、去除冗余音频处理模块等方式，降低CPU开销，缩短直播引擎初始化延迟，进而优化首帧延时。

🎵音频校准式音视频同步构建严格的音画同步策略，提升音视频同步精度，对观播时长的影响最为突出。

⏱️启播阶段码率限制调度通过调控启播阶段的码率节奏，减少首帧阶段的卡顿现象，全面优化启播体验，对观众渗透率的影响最为显著。

📈RTM在主客观指标上均实现显著提升，相较于HTTP-FLV，端到端延迟降低49.6%，音频卡顿减少41.6%，视频卡顿减少9.5%，渗透率和平均观播时长也得到显著增长。

🏆在世界杯、亚运会等赛事场景中，针对相同直播源，RTM 相较竞品实现了3.5秒以上的端到端延迟优势。

原创媒体网络 2025-09-10 17:03 北京

会议背景

2025年9月8日至9月11日，ACM Special Interest Group on Data Communication(ACM SIGCOMM) 2025在葡萄牙科英布拉召开。作为中国计算机学会（CCF）推荐的网络通信领域 ToP1 国际学术会议，其权威性和影响力不言而喻。今年，大会竞争极为激烈，共收到众多高质量投稿，最终仅接收74篇长文，录用率16.1%。

字节跳动与湖南工商大学、深圳大学、清华大学深圳研究生院合作的论文"Harnessing WebRTC for Large-Scale Live Streaming" 被 ACM SIGCOMM 2025 收录。

论文链接：

https://dl.acm.org/doi/pdf/10.1145/3718958.3750535

论文背景

直播已重塑了人们的连接方式。社交媒体平台上的直播内容覆盖了全球三分之一的互联网用户，占互联网总流量的17%。随着电商直播、体育赛事直播等新兴场景的兴起，主播与观众的互动需求日益增加，这对端到端直播延迟提出了更高要求。例如，在线商家开展 “首评得好礼” 等限时活动时，需要较低的直播延迟保障公平性与参与体验；足球迷若在直播画面呈现进球前，已从聊天区提前获知结果，观赛体验也会大打折扣。

在此背景下，极低延时直播成为行业重要的发展方向。

通过拆解端到端延迟构成，我们发现其中90%的延迟来自拉流环节的最后一公里。

此前，我们基于传统的 HTTP-FLV 拉流方式，已将延迟优化到较低水平，但是进一步优化时遭遇到了明显瓶颈。

为此，本文将介绍一项基于实时通信引擎 WebRTC 的大规模极低延时直播技术 RTM，并阐述我们如何对 RTM进行高效优化，从而实现用户参与度指标（直播渗透率、平均观播时长）的显著增长。

动机

现有延迟主要源于边缘 CDN 及观众侧的预缓冲（pre-buffering）。单纯调整预缓冲虽能降低端到端延迟，但会导致卡顿等其他性能指标明显劣化。

尽管最终我们成功将 HTTP-FLV 的端到端延迟优化至5秒以内，且其他指标未出现明显下降，但这得益于一系列复杂机制 — 例如根据测量到的最后一公里接入链路状况动态调整预缓冲时长。更关键的是，经过多年持续优化，基于 TCP 的 HTTP-FLV 流媒体协议已逐渐触及性能上限：为实现越来越微小的性能提升，所需投入的成本却呈指数级增长。因此，我们决定从更根本的层面升级流媒体协议。

随着实时通信引擎 WebRTC 的日渐成熟，我们提出疑问：能否将 WebRTC 应用于直播领域，以提供极低延时的直播体验？

为此，我们开展了为期一周的线上 A/B 实验，覆盖4.5亿拉流观众。结果显示，绝大多数体验指标均得到显著优化：端到端延迟降低49.6%，音频卡顿减少41.6%，视频卡顿减少9.5%；仅首帧延迟略有劣化，增幅为7.4%。

然而，与商业收益直接相关的用户参与度指标—渗透率（进入直播间的用户与刷到直播流的用户的比例）和平均观播时长（所有直播会话的平均观播时长）却出现显著下滑。

接下来的核心问题是：如何优化渗透率及平均观播时长呢？

显然，我们无法直接对这两项用户参与度指标进行优化，但可以通过改善卡顿、首帧时长等体验指标间接实现。

因此，问题可转化为：应优先优化哪些体验指标，才能使体验层面的改进快速转化为用户参与度指标的提升？

识别优化指标

为量化各类体验质量（QoE）指标对用户参与度的重要性，我们利用 XGBoost 分别训练了两个预测模型：基于一整套 QoE 指标输入，分别用于预测渗透率和观播时长。训练数据来源于 Vanilla-WebRTC（Vanilla-RTM）模式下1.5亿次直播会话的记录。

两个预测模型会为输入的各项 QoE 指标生成重要性评分，以此反映该指标对所预测的用户参与度指标的相对影响权重。为提升重要性评估的准确性，我们进一步采用 SHAP 对 XGBoost 模型进行解释，并对最终的重要性评分进行排序。

分析结果显示：首帧时长、启播阶段的视频卡顿次数对观众渗透率的影响最为显著。

此外，音视频同步精度与 CPU 使用率对观播时长的影响最为突出。

优化方案

基于上述分析，若要快速提升观众渗透率与日均观播时长，可优先从关键体验指标入手，即重点优化首帧时长、启播阶段卡顿、音画同步精度及 CPU 使用率。

为此，我们提出三项核心设计：

Integrated Media Pipeline（集成媒体处理流水线）

该设计通过复用解码器、去除冗余音频处理模块等方式，实现双重优化效果：一是降低 CPU 开销；二是缩短直播引擎初始化延迟，进而优化首帧延时。

Audio-Calibrated AV Synchronization（音频校准式音视频同步）

该设计聚焦于构建严格的音画同步策略，提升音视频同步精度。

Bitrate-Limited Startup Pacing（启播阶段码率限制调度）

该设计通过调控启播阶段的码率节奏，减少首帧阶段的卡顿现象，全面优化启播体验。

实验结果

Integrated Media Pipeline（集成媒体处理流水线）收益：

该设计可有效提升 CPU 利用率，显著降低首帧延迟与启播阶段卡顿现象，进而推动直播渗透率及平均观播时长的提升。

Audio-Calibrated AV Synchronization（音频校准式音视频同步）收益：

该设计有效提升了音画同步率。尽管视频卡顿现象略有增加，但最终平均观播时长仍实现显著提升，这一结果验证了此前的分析结论—音画同步指标的重要性高于卡顿指标。

Bitrate-Limited Startup Pacing（启播阶段码率限制调度）收益：该设计有效改善了启播阶段的卡顿问题，推动直播渗透率指标实现显著提升。

RTM 和传统 HTTP-FLV 收益对比

与 HTTP-FLV 相比，RTM 在主客观指标上均实现显著提升。

与竞品在世界杯、亚运会的延迟对比

在世界杯、亚运会等赛事场景中，针对相同直播源，RTM 相较竞品实现了3.5秒以上的端到端延迟优势。

总结

本文以基于 WebRTC 的大规模直播技术 RTM 为实例，系统阐述了以下核心逻辑：如何将看似难以直接优化的用户参与度指标，转化为可落地优化的体验指标；如何通过海量数据分析识别高优先级的优化目标；如何提出针对性方案高效优化已识别的目标；以及如何借助大规模线上实验验证分析方法及优化手段的有效性。最终，通过这一系列实践，高效推动了直播渗透率、观播时长等与营收高度相关的关键指标实现显著增长。

团队信息

火山引擎-媒体网络-网络传输团队始终致力于提供业界领先的流媒体传输质量与传输能力。团队研发的创新算法及解决方案，已在抖音、飞书等多款产品的直播、实时通信等业务中广泛应用，为用户体验保驾护航。

团队在拥塞控制、网络智能、大模型与传输等前沿领域深耕钻研，最新研究成果已被 SIGCOMM、ATC、CVPR、MM、TMC 等顶级会议或期刊收录。

火山引擎是字节跳动旗下的云服务平台，将字节跳动快速发展过程中积累的增长方法、技术能力和应用工具开放给外部企业，帮助企业构建用户体验创新、数据驱动决策和业务敏捷迭代等数字化能力，实现业务可持续增长。

简历投递或项目合作可联系：

zhangwei.666@bytedance.com

阅读原文

跳转微信打开

Fish AI Reader

AI辅助创作，多种专业模板，深度分析，高质量内容生成。从观点提取到深度思考，FishAI为您提供全方位的创作支持。新版本引入自定义参数，让您的创作更加个性化和精准。

FishAI

鱼阅，AI 时代的下一个智能信息助手，助你摆脱信息焦虑

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签