反直觉简报 · 2026-05-11

✦ ✦ ✦

时间线翻转讽刺漫画 — ▲ 人类观察员用跑步速度预测火车 · Karpathy 的时间线翻转

01约四个月前说「代理还要十年」，四个月后说「编程已面目全非」

时间线翻转Karpathy

观点陈述： 2025 年 10 月，Karpathy 在 Dwarkesh 播客上表示功能性 AI 代理「大约还需要十年」才能成熟，认为当时的 agent 产品"就是不行"（"just don't work"），缺乏足够智能、多模态和持续学习能力。但到了 2026 年 2 月，他公开称编程"已变得无法辨认"——"你不是在编辑器里敲代码……那个时代结束了"，转而描述自己用自然语言给 AI 代理分配任务、并行管理其工作的新工作流。同年 3 月，他发布了开源项目 autoresearch（一个约 630 行的脚本），让 AI 代理在两天内自主完成 700 次实验、发现 20 个有效优化，将一个小模型的训练效率提升了约 11%。

为什么反直觉： Karpathy 自己将转折点归因于 2025 年底 Opus 4.5 和 Codex 5.2 的发布——"AI agents barely worked before December 2025, but since then they've become reliable"。这个"几个月内从'不行'到'可靠'"的质变速度本身就挑战了"进展平滑可预测"的直觉。需要指出的是，Karpathy 10 月批评的主要对象是"完全自主实体/云端 agent 产品"超前，并非否定人机协作式 coding agent 的价值；而 2 月的乐观也主要局限于编程工作流和 coding agents，并非泛化到所有 AI agents。他同时强调这些系统仍需要人类的"高层方向、判断、品味、监督、迭代及提示和想法"。

来源： 2025.10 Dwarkesh 播客 — Business Insider · 2026.02 X 帖 — The Decoder · Karpathy 原帖 · autoresearch — Fortune / VentureBeat

✔ 已通过事实核查 · 措辞已收敛

✦ ✦ ✦

jagged intelligence 讽刺漫画 — ▲ 畸形大脑幽灵 · 刷爆 Benchmark 但建议把汽车装进口袋

02LLM 不是「成长中的动物」，而是「召唤出的幽灵」

认知框架Animals vs Ghosts

观点陈述： Karpathy 在其 2025 年度回顾中提出一个引人注目的框架：用"成长中的动物"来理解 LLM 是误导性的。他认为 LLM 的神经网络架构、训练数据、算法和优化压力与生物大脑完全不同，更适合看作是"召唤出的幽灵"——一种呈现出极端不规则（jagged）智能形态的实体。一个模型在可验证领域（如数学、代码）通过 RLVR 可以快速尖刺式提升，在需要常识和鲁棒性的任务上却可能被简单的越狱提示欺骗。这种智能的不规则性也让他对基准测试（benchmarks）失去信任——"benchmarks 本质上也是可验证环境，LLM 实验室可以专门针对它们长尖刺"。

为什么反直觉： 业界大量讨论——无论支持者还是批评者——都在使用生物类比：AGI 像"养一个孩子"、模型在"成长"、能力在"进化"。Karpathy 认为这类框架让人错误地期待平滑、各维度均匀的能力增长，而实际 LLM 的能力形态极不规则。不过需要补充的是，Karpathy 在《Animals vs. Ghosts》中也明确承认 Sutton 的批评有价值，表示 AI 领域应保持思想多样性，且他并不完全排斥从动物智能中获得灵感——他同时写道 LLM ghosts 未来可能进一步向 animals 方向微调，也可能保持永久不同，这个框架本身带有"双位数百分比"的不确定性。此外，他提及 in-context learning、memory/CLAUDE.md 等机制也可视为某种 test-time adaptation，不完全排除"学习"的概念。

来源： 2025 LLM Year in Review · Animals vs. Ghosts · Verifiability · The Space of Minds

✔ 已通过事实核查 · 补充了框架的不确定性

✦ ✦ ✦

autoresearch 互补脚手架漫画 — ▲ AI 从人类没在意的方向绕到前面，递来关键的砖

03AI 代理自主实验循环——发现了人类 20 年经验也遗漏的优化，但远非完美

autoresearch自动化科研

观点陈述： Karpathy 开源的 autoresearch 项目允许一个 AI 代理自主读取训练脚本、提出改进假设、修改代码、运行实验并评估结果。在一夜的运行中代理完成了 126 次实验，将验证损失从 0.9979 降至 0.9697；在持续两天的运行中处理了约 700 次自主更改，找到约 20 个可迁移到更大模型的优化。引人注目的是，Karpathy 本人承认代理发现了注意力缩放和正则化中的疏漏——这些是他"手动检查了约 20 年都没注意到的"。然而需要看到另一面：社区用户在 Mac Mini M4 上复现时，35 次实验中 26 次失败或崩溃，成功运行的 7 次呈现一个模式——"模型变简单反而变好了"（"the model got better by getting simpler"），但这个结论来自单个社区个案，不应过度泛化。

为什么反直觉： 直觉上 AI 代理做自动实验无非是更快地重复人类已知的调参流程。但实际结果展现出多个张力：(1) 代理发现了 Karpathy 本人长期未察觉的优化空间——暗示人类专家的直觉盲区；(2) 社区运行中"简化模型反而改善"的模式与"更大更复杂 = 更好"的主流趋势形成对比；(3) 但该系统的局限性同样明显——两天的运行产生 700 次实验的同时也引发了"是否会污染验证集"的担忧，前沿模型训练规模的复杂度远超 autoresearch 处理的范围（Karpathy 自己承认 at scale "a lot more complex"），且 Karpathy 所指的适用范围仅限于"可高效评估的指标"（reasonably efficient to evaluate），不应直接外推到所有领域。此外，批评者指出 autoresearch 与 Google 等实验室早已使用的 AutoML 方法有重叠——Karpathy 反驳说传统 AutoML 依赖随机变异或进化算法，而 autoresearch 使用 LLM 自主阅读论文、学习前序实验、编写任意代码，"根本不是一个级别"（"not even close"）。

来源： VentureBeat · Fortune · GitHub 讨论 · Karpathy 反驳 AutoML

⚑ 修正后 · 补充了复现失败率/验证集风险/适用范围