热点
关于我们
xx
xx
"
混合专家
" 相关文章
长文本生成迎来新突破:拓元智慧推出 DrDiff ,实现效率与质量双提升
AI科技评论
2025-10-22T11:48:55.000000Z
为MoE解绑:全新「专家即服务」推理架构发布,超细粒度扩展锐减37.5%成本
机器之心
2025-10-13T07:18:10.000000Z
为MoE解绑:全新「专家即服务」推理架构发布,超细粒度扩展锐减37.5%成本
机器之心
2025-10-13T07:18:10.000000Z
FlyLoRA: Boosting Task Decoupling and Parameter Efficiency via Implicit Rank-Wise Mixture-of-Experts
cs.AI updates on arXiv.org
2025-10-10T04:18:22.000000Z
MoGU: Mixture-of-Gaussians with Uncertainty-based Gating for Time Series Forecasting
cs.AI updates on arXiv.org
2025-10-10T04:10:13.000000Z
H3Fusion: Helpful, Harmless, Honest Fusion of Aligned LLMs
cs.AI updates on arXiv.org
2025-10-07T04:18:55.000000Z
Adaptive Shared Experts with LoRA-Based Mixture of Experts for Multi-Task Learning
cs.AI updates on arXiv.org
2025-10-02T04:18:08.000000Z
No Title
Groq Blog
2025-09-28T15:42:03.000000Z
How to Train Really Large Models on Many GPUs?
Lil'Log
2025-09-25T10:02:03.000000Z
你的桌面,就是好莱坞:阿里万相2.2如何掀起视频创作革命
掘金 人工智能
2025-07-29T15:51:35.000000Z
[推广] Kimi k2 online
V2EX
2025-07-13T09:58:24.000000Z
【深度学习】图解Transformer和MoE的差别
机器学习初学者
2025-06-27T06:22:17.000000Z
Qwen1.5-MoE: Matching 7B Model Performance with 1/3 Activated Parameters
Qwen 技术博客
2025-06-25T07:54:01.000000Z
单卡即可微调大模型!内存占用仅1/8,性能依然拉满 | ICML 2025
智源社区
2025-05-29T02:27:55.000000Z
原生多模态模型的标度律:重新思考架构选择与训练效率
集智俱乐部
2025-05-14T14:27:36.000000Z
原生多模态模型的标度律:重新思考架构选择与训练效率
集智俱乐部
2025-05-13T14:32:41.000000Z
苹果提出原生多模态Scaling Law!早融合+MoE,性能飙升秘密武器
智源社区
2025-05-06T07:43:06.000000Z
探秘Transformer系列之(21)--- MoE
掘金 人工智能
2025-03-31T13:19:45.000000Z
SYMBOLIC-MOE: Mixture-of-Experts MoE Framework for Adaptive Instance-Level Mixing of Pre-Trained LLM Experts
MarkTechPost@AI
2025-03-16T03:47:16.000000Z
ByteDance AI Introduces Doubao-1.5-Pro Language Model with a ‘Deep Thinking’ Mode and Matches GPT 4o and Claude 3.5 Sonnet Benchmarks at 50x Cheaper
MarkTechPost@AI
2025-01-26T03:58:44.000000Z