2025-09-11 11:33 北京
真正的元凶是缺乏批次不变性。
机器之心报道
机器之心编辑部
真正的元凶是缺乏批次不变性。就在今天,由 OpenAI 前 CTO Mira Murati 成立于今年 2 月的人工智能初创公司 Thinking Machines Lab,发了第一篇文章 ——《克服 LLM 推理中的不确定性》(Defeating Nondeterminism in LLM Inference)。
GPU 中的浮点运算具有非结合性(non-associativity),意味着 (a+b)+c≠a+(b+c),这是由于精度有限和舍入误差所致。这一特性会直接影响 transformer 架构中注意力得分和 logit 的计算,因为在多线程中进行的并行操作,其执行顺序不同会导致结果差异。虽然这个假设并不完全错误,但它并没有揭示事情的全貌。例如,即使在 GPU 上,对相同的数据反复进行相同的矩阵乘法运算,每次的结果也都是每一位都相同的。我们确实在使用浮点数,GPU 也确实具有高度并发性。 那为什么在这个测试中却看不到不确定性呢?
