2025-08-18 11:28 北京
方案背景

🔍 数据挖掘与管理:Lance格式支持增量更新,无需重写历史数据,减少存储成本30%,管理效率提升50%。
🚀 模型训练优化:点查询功能实现轻量级数据shuffle和列投影,提升GPU利用率至96%,训练任务交付时间缩短40%。
💾 Zero-Cost Data Evolution:支持动态标注场景下新增数据列,无需重写历史数据集,降低存储成本。
📊 透明压缩:ZSTD编码压缩点云数据达70%压缩率,减少网络带宽压力。
🔗 点查询优化:列投影与轻量级shuffle机制提升训练效率,GPU利用率达96%。
2025-08-18 11:28 北京
方案背景
难点与挑战
方案详情
优势一:数据挖掘与管理1. 客户痛点:客户原先使用 LMDB 存储格式,每次增加推理标注列时需读取和重写全量数据集,导致数据重复和存储膨胀,GPU 资源浪费严重。2. Lance方案:通过统一元数据管理,支持增量更新,无需重写历史数据。实测减少存储成本 30%,管理效率提升 50%。优势二:模型训练优化1. 客户痛点:训练任务需高效利用 GPU 资源,确保稳定性和迭代速度。传统方法因 IO 放大和内存膨胀导致 GPU 利用率仅 60%。2. Lance方案:点查询功能(Point Query)实现轻量级数据 shuffle 和列投影,仅读取必要字段,避免 IO 放大。客户实测:单机 8*A100 GPU 利用率从 60% 提升至 96%,训练任务交付时间缩短 40%。/ Lance核心优势1. Zero-Cost Data Evolution在智能驾驶场景,数据标注精细度决定模型性能上限。Lance提供zero-cost data evolution 机制,有力的支持了动态标注场景:- 交通要素自动标注:红绿灯、交通标志等。- 动态参与者标注:行人、车辆轨迹。- 环境条件标注:光照、降水、能见度。在使用对应场景的数据集进行微调模型时,需要基于一些标签筛选出特性场景的数据集,这个时候就需要一些标签数据,例如是否是阴天的图片,是否是有行人的图片,而这些标签的自动标注的过程其实一个增加列的行为。传统方法(如 LMDB 或 Pickle)在新增列时需重写数据集,耗费大量资源。而Lance 支持通过操作清单(Manifest)元数据实现数据集的快速schema evolution。而不需要重写历史数据,只需要对变更的数据重新更新到元数据中即可。- 列添加:通过向每个片段添加新列的数据文件(DataFile)来实现。客户实测效果:- 推理吞吐量提升50%:单机8*A100 GPU利用率从60%提升至90%- E2E处理效率提升3倍: 10PB 数据的标签处理由4Days变成1Day
2. Transparent compressionLance 支持ZSTD压缩编码,对点云和标签数据具有较高的压缩比,能够很好的实现压缩存储空间占用同时还能够降低网络带宽。而且Lance本身的压缩是定义在schema中的,对于数据的写入或者读取是无感的,透明的,所以易用性有很大提升。成本收益:
3. Point Query For AI Train
AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。
鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑