热点
关于我们
xx
xx
"
语言建模
" 相关文章
Interpretable Next-token Prediction via the Generalized Induction Head
cs.AI updates on arXiv.org
2025-10-27T06:31:34.000000Z
Soft-Masked Diffusion Language Models
cs.AI updates on arXiv.org
2025-10-21T04:28:00.000000Z
Modeling Expert Interactions in Sparse Mixture of Experts via Graph Structures
cs.AI updates on arXiv.org
2025-10-21T04:24:22.000000Z
Contrastive Decoding for Synthetic Data Generation in Low-Resource Language Modeling
cs.AI updates on arXiv.org
2025-10-10T04:17:22.000000Z
Contrastive Decoding for Synthetic Data Generation in Low-Resource Language Modeling
cs.AI updates on arXiv.org
2025-10-10T04:17:22.000000Z
Heptapod: Language Modeling on Visual Signals
cs.AI updates on arXiv.org
2025-10-09T04:09:06.000000Z
SliceMoE: Routing Embedding Slices Instead of Tokens for Fine-Grained and Balanced Transformer Scaling
cs.AI updates on arXiv.org
2025-10-07T04:16:49.000000Z
SCOUT: Toward Sub-Quadratic Attention via Segment Compression for Optimized Utility in Transformers
cs.AI updates on arXiv.org
2025-09-03T04:17:18.000000Z
博士论文 | Stanford 2025 | 用于序贯决策的强化学习:从芯片设计到语言建模 160页
智源社区
2025-06-29T15:39:42.000000Z
AI自我纠错,Diffusion超越自回归!质量提升55%,已达理论证据下界
新智元
2025-04-09T10:06:21.000000Z
无需Attention的未来,RWKV-7能成为替代Transformer的那只黑天鹅吗?
硅星人Pro
2025-04-09T10:03:33.000000Z
AI自我纠错,Diffusion超越自回归!质量提升55%,已达理论证据下界
新智元
2025-03-23T07:07:56.000000Z
小模型指导大模型!田渊栋等爆锤蒸馏:新方法更高效、更透明、更可控
智源社区
2025-03-03T05:07:14.000000Z
小模型指导大模型!田渊栋等爆锤蒸馏:新方法更高效、更透明、更可控
新智元
2025-03-02T06:16:47.000000Z
资讯 | Meta | 大概念模型 (Large Concept Models):颠覆大语言模型 (LLMs) ?
智源社区
2025-01-08T16:18:38.000000Z
Tokenization,再见!Meta提出大概念模型LCM,1B模型干翻70B?
智源社区
2025-01-08T10:00:15.000000Z
Tokenization,再见,Meta提出大概念模型LCM,1B模型干翻70B?
36kr-科技
2025-01-07T10:31:26.000000Z
Meta最新研究:无需Tokenizer的架构!
Datawhale
2024-12-18T14:11:27.000000Z
RNN回归!Bengio新作大道至简与Transformer一较高下
新智元
2024-10-28T14:26:08.000000Z
Jurgen、曼宁等大佬新作:MoE重塑6年前的Universal Transformer,高效升级
机器之心
2024-10-19T08:11:44.000000Z