
3月16日,月之暗面Kimi发布了一份技术报告,对大模型十年未变的核心结构残差连接进行了重新设计。新设计让每一层能够选择性地关注此前各层的输出,而不是统一求和。这一改进使48B模型的训练效率提升了1.25倍,被业界解读为下一代模型关键模块的预告。这项研究由月之暗面的三位联合创始人杨植麟、吴育昕和周昕宇带领数十名研究员完成。论文发布后,马斯克对其表示印象深刻,前OpenAI研究科学家Andrej Karpathy认为该研究真正践行了“Attention is All You Need”的理念,而推理之父、前OpenAI研究副总裁Jerry Tworek则认为这标志着深度学习2.0的到来。
诚信双盈提示:文章来自网络,不代表本站观点。