热点
"长序列训练" 相关文章
Long-Context Attention Benchmark: From Kernel Efficiency to Distributed Context Parallelism
cs.AI updates on arXiv.org 2025-10-22T04:16:53.000000Z
无损减少80%激活值内存,提升5倍训练序列长度,仅需两行代码
机器之心 2025-06-23T11:39:41.000000Z
一行代码Post-Train任意长序列!360智脑开源360-LLaMA-Factory
掘金 人工智能 2025-01-10T08:17:35.000000Z