掘金 人工智能 前天 16:57
MaxCompute资源优化:GoTerra迁移经验谈
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文聚焦东南亚科技集团GoTerra从BigQuery迁移至阿里云MaxCompute的真实历程,重点阐述了如何通过Resource Advisor和TopN Fair策略优化资源管理。文章详细解析了GoTerra在资源预估、多业务线协调、作业类型冲突等方面的挑战,并介绍了MaxCompute分层资源配置、智能资源推荐、以及TopN Fair调度策略如何实现资源利用率、性能和成本的最优平衡。通过这些策略,GoTerra成功降低了迁移后的运营成本,并显著提升了作业处理效率和稳定性。

💡 **资源预估与分层配置:** GoTerra面临多业务线、多项目、多额度组的复杂资源管理需求,以及MaxCompute与BigQuery计费模式差异带来的预估不确定性。MaxCompute通过分层资源配置策略,结合预付费CU、定时弹性CU(Adhoc)和AutoScaleQuota,实现对基线资源、可预测波动和突发流量的精细化管理,有效控制成本并保障性能。

🚀 **智能资源推荐与动态调优:** MaxCompute的Resource Advisor工具基于历史作业运行日志和资源消耗,结合ETL/BI作业的SLA要求,预测次日CU需求,并提供T+1动态调优建议。通过数据采集、作业分类模型和资源预测算法,实现对资源配置的智能推荐,使GoTerra迁移后实际费用降低至BigQuery的42%。

⚖️ **TopN Fair调度策略:** 针对ETL(长作业)与BI(短作业)混合负载场景,MaxCompute引入TopN Fair策略,通过JobMinimumConcurrency(最低并发度)保障长作业的执行,同时允许短作业动态借用资源。该策略通过动态计算N值,确保资源公平分配,有效降低了作业运行平均数和Latency,显著提升了混合作业场景的处理效率。

📈 **AutoScaleQuota与自动化管理:** 新产品AutoScaleQuota的上线实现了资源管理的自动化,能够基于业务负载动态调整配额,无需人工干预。这彻底解决了突发流量导致的资源不足和作业等待问题,进一步提升了系统的弹性和可用性,目标是将GoTerra的总费用控制在BigQuery的40%以内。

本系列文章将围绕东南亚头部科技集团的真实迁移历程展开,逐步拆解 BigQuery 迁移至 MaxCompute 过程中的关键挑战与技术创新。本篇为第十一篇,基于 MaxCompute Resource & Quota策略优化实现资源管理性能与成本最优平衡。

注:客户背景为东南亚头部科技集团,文中用 GoTerra 表示。

1. 背景

GoTerra作为东南亚互联网头部企业,其业务生态覆盖网约车、电商、外卖、物流及金融支付等多个垂直领域,内部采用多账户架构(10+ Accounts,70+ Projects)及上百个资源额度组(Quota Group)进行精细化管理。在从BigQuery迁移至阿里云MaxCompute的过程中,对资源管理的核心诉求在于通过智能弹性资源分配策略,动态适配业务负载波动,在控制成本的同时避免资源瓶颈,实现性能与成本的最优平衡。面临以下核心挑战:

多业务线资源协调复杂

计费模式差异带来的不确定性

多类型作业资源需求冲突

2. Resource Advisor和TopN Fair

2.1. Resource Advisor

2.1.1. 核心挑战

资源预估难题:

多业务实体管理,每个业务实体需独立阿里云账号,SLA要求不同,导致资源购买量预期不一致:

如何在控制成本的前提下,动态适配业务负载波动,避免资源瓶颈

2.1.2. 分层资源配置策略

资源配置用途配置原则计费
预付费CU保障全天候基线资源需求,覆盖日常稳定负载基于历史日均负载的80%-90%预购CU适用于ETL类周期性作业(如每日定时批处理)。按购买量计费,24h预留,计费时间24h
定时弹性CU(Adhoc)适用于可预测的负载波动(如BI报表每日上午集中执行)在业务高峰期(如早晚高峰)自动扩容资源,峰值后释放指定时间计费按购买量计费,指定时间预留
AutoScaleQuota应对突发BI作业流量预估突发流量峰值,配置弹性上限动态监控实时资源利用率,触发自动扩缩容。超出预付费CU+Adhoc CU部分按分钟级计费,避免突发流量导致的资源不足

其中AutoScaleQuota是应对GoTerra迁移场景新增的产品类型,解决迁移过程中,业务资源需求变化快,作业性能要求高的需求:

分层配置策略特点:

2.1.3. 智能资源推荐与弹性配置

资源推荐工具(T+1动态调优)

核心功能:

技术实现:

资源预测算法:

2.1.4. 推荐效果

GoTerra迁入MaxCompute过程中,MaxCompute进行了深度架构升级和性能优化,同时在合理的资源配置规划下,根据用户历史作业数据定期推荐用户Quota组配置和策略,每月实际产生费用约降低到BigQuery的42%。

2.2. TopN Fair

2.2.1. 现有调度策略局限性

FIFOFAIR
调度策略说明对于作业优先级相同的场景,资源将优先分配至先提交的作业。对于作业优先级不同的场景,即使优先级高的作业提交时间晚于优先级低的作业,资源也将优先分配至高优先级作业。对于作业优先级相同的场景,资源将平均分配至同一时间提交的所有作业。对于作业优先级不同的场景,资源优先平均分配给优先级较高的作业,若有剩余,再平均分配给优先级较低的作业
优点&适用场景保障先提交的作业优先执行,适合ETL类长时间任务资源均分给最高优先级的所有作业,适合短时BI任务
缺点小作业需等待长作业完成,导致延迟(“头阻塞”)先提交的作业可能因资源被平分走而延长执行时间

GOTO业务需求

混合负载场景:ETL(长作业)与BI(短作业)并存

核心诉求:

2.2.2. 新策略:TopN Fair + 动态并发保障

2.2.2.1. 核心设计目标
2.2.2.2. 关键参数定义
2.2.2.3. 动态N值计算公式

计算出N,如果,则

符号解释:

公式含义:动态计算N值,确保前N个作业的累计资源需求不超过Quota组总容量的JobMinimumConcurrency倍,且至少保障个作业参与资源分配,避免少量作业占满整个组;

2.2.3. 策略优势

维度FIFOFAIRTopN Fair + 短作业插队
长作业保障
短作业支持
使用场景ETLBIETL+BI混合场景

2.2.4. 实际效果

整集群作业平均运行数下降15.7%,作业运行时Latency 95分位值下降45.7%,GoTerra用户的效果较好的Quota组,作业平均运行数下降31.3%, 作业运行时Latency 95分位值下降75.4%。

3. 结语与展望

GoTerra迁移到MaxCompute后,Resource Advisor持续通过智能资源推荐优化成本,目标将总体费用控制在BigQuery的40%以内。随着新产品AutoScaleQuota上线,资源管理实现全自动化:基于业务负载动态调整配额,无需人工干预,彻底解决突发流量导致的资源不足与作业等待问题。同时,TopN Fair已在印尼集群全面上线,后续的发展方向:分析各Quota组作业执行模式,自动配置JobMinimumConcurrency并动态切换调度策略,进一步提升资源利用率。

在性能与成本优化的基础上,稳定性也是一个非常重要的目标,系统稳定性目标达99.99%可用性,保障GoTerra在MaxCompute上实现“低成本、高效率、强稳定”的运行体验。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

MaxCompute BigQuery迁移 资源优化 GoTerra Resource Advisor TopN Fair 成本控制 性能提升 东南亚科技 数据仓库
相关文章