PG Advisory - Financial Consulting with Insight & Integrity

AI没变聪明，但突然有用了：未来什么能力更值钱？

过去两三年，AI的飞速进步让很多人误以为它正变得越来越“聪明”。但Keras之父、Google研究员François Chollet最近指出一个反直觉的事实：真正具备商业价值的AI，智商并没有提升，只是被丢进了一个“能分出对错”的环境。

一旦对错可验，AI就能自动试错、自我放大。这就是为什么编程工具迅速走向商用，而写作、创意这类缺乏明确标准的领域进展缓慢。这种分化正在重新定义：“聪明”还值钱吗？

如果你还在用旧尺度衡量自己，可能已经站错了位置。

一、AI智商没涨，但更好用了

代码智能体突然变得极其顺手，写出的程序甚至能直接交付。数学证明辅助也在快速跟进，表现日趋稳定。很多人把这归因为“模型更聪明了”。

其实，关键变化不在智力本身，而在于AI进入了“能把事情做成”的闭环。

以写代码为例：一段程序对不对，当场就能验证——能否跑通？有无报错？测试用例是否通过？AI不必靠猜，也不需要人逐行纠错。它可以反复运行、检查结果、再修改。每次尝试都会留下有效反馈，快速累积后，系统表现便大幅跃升。这就是代码智能体短时间内逼近交付水平的真正原因。

同样的逻辑正在向数学扩散。一个证明是否成立，可用严格规则检验；推导步骤是否正确，也能按逻辑验证。一旦对错分明，数学就具备了与代码相同的快速迭代路径。

这个规律在AI自我测试中也得到了印证。ARC AGI是目前公认最难的非图形智力测试。V1版本发布时，基础模型得分不足10%，直到推理模型出现才有突破。随后更难的V2版本发布，却很快被攻克：研究人员让AI生成类似任务、自行解题、验证答案，再用成功案例反哺训练。短短几个月，准确率被推至97%。

只要能验证对错，AI就能靠海量试错快速进化。

但换到写作、创意、策略这类领域，情况完全不同。没有统一标准，也没有绝对的对错。AI仍能生成内容，但无法像写代码那样自主逼近“正确答案”。这类场景严重依赖人工标注，成本高昂，进展缓慢，容易碰触天花板。

于是行业出现了两种截然不同的节奏：一类问题呈指数级爆发；另一类看似在进步，却始终不稳定，难以跨越商业化门槛。底层逻辑很简单——问题是否能被清晰验证。能验证，AI自己踩油门往前跑；不能验证，AI只能停在“看起来还行”的阶段。

所以，同样是AI，有的场景已能替代人工交付，有的却仍是辅助工具。模型并没有突然变聪明，只是在“对错分明”的环境中被训练得更具执行力。

二、“聪明”正在贬值

剥开技术表象，一个更残酷的真相浮现：过去被职场和教育反复追捧的“聪明”，溢价正快速缩水。

很长一段时间里，社会衡量能力的方式很直接：知识广、反应快、逻辑清。在信息获取成本极高、处理效率低下的前AI时代，这些特质极其稀缺，“聪明”本身就是核心竞争力。

但如今，大模型正在无差别地扫平这些壁垒。信息获取几乎没有门槛，内容整理可以自动化，复杂的表达和逻辑也能瞬间生成。你不再需要长时间积累，就能得到一个“足够聪明”的答案。

这场变革最深远的影响，不是“机器换人”，而是能力评价体系的重构。过去，能给出答案就是赢家；今天，答案变成了最廉价的工业品。真正的考题变成了：谁能用这些答案去解决实际问题？

Chollet的理论恰好解释了这一点：他将能力分为“智力（应对未知）”和“技能（应对已知）”。当系统拥有足够庞大的静态知识储备时，它不需要多高的真实智力，就能在大多数常规工作中表现优异。

AI的狂飙猛进，本质上是靠暴力的算力和海量数据，把许多过去需要人类“聪明”的工作，降维成了纯粹的“知识调用”。这也导致了AGI定义的裂痕：究竟是“万物皆可自动化”，还是“像人一样举一反三”？当下的AI正狂奔向前者——但这只是技能堆积，而非智力跃升。

这恰好契合多数人的使用体感：AI给出的方案完美但往往落不了地；它能条分缕析地解释问题，却缺少把事情做成的闭环能力。这正是“聪明（表达与逻辑）”与“有用（执行与结果）”的分水岭。

当信息的获取和表达都变得廉价，单纯依赖理解快、说得清，已不足以构成护城河。这些能力仍是基础，但不再能拉开差距——它们就像算力和网速那样，一旦成为基础设施，就不再是衡量高下的标准。真正拉开差距的，是另一种能力。

三、什么能力开始变得稀缺？

当“聪明”不再稀缺，什么才值钱？

很多人会回答：执行力、沟通力、领导力。这些当然重要，但还不够精准。真正的答案，藏在第一节的那条分界线里：能不能把一件事，变成可验证的？

现实中，大部分工作并不天然具备这个条件。写文章、做策划、定策略、做创意……目标模糊、标准主观，很难判定对错。于是AI只能停在辅助层面，无法像跑代码那样自我进化。

因此，未来真正稀缺的能力，是把模糊的事情重新设计成可验证的任务。这不是简单的“拆解目标”或“列清单”，而是一种更底层的系统构建能力：搭建验证环境。Chollet称之为“控制机制”。本质上，这是一套人类设计的规则，告诉AI怎么试错、怎么验证、怎么优化。

去年，两家创业公司Poetic和Confluence Labs在攻克极具挑战的ARC V2推理基准测试时，充分展示了这种能力的价值。他们没有去硬拼“更聪明的模型”，而是设计了一套精巧的控制机制：让AI生成类似题目，尝试用程序解题，验证答案正确性，记录成功推理链路，再用这些数据反哺训练。几个月后，Confluence Labs将准确率推至97%，且成本更低。原因不是模型变聪明了，而是有人把原本模糊的推理任务，改造成了一个可反复跑通、持续优化的验证环境。

这个逻辑完全可以迁移到更多商业领域。谁能把主观的客服对话变成可量化的评分维度，谁能把依赖“网感”的短视频脚本拆解成可测试完播率和人设共鸣度的指标，谁能把战略规划变成可阶段性验证的节点，谁就掌握了让AI从“玩具”升级为“生产力”的钥匙。

这也是为什么同样在用AI，有人只是稍微提高了排版效率，有人却直接重构了业务飞轮。差别不在工具，而在重新设计问题、定义规则的能力。

Chollet的建议很明确：你的专业知识越深，越能把工具用好。与其对抗AI进化，不如借力而行。但这里的“专业知识”，不再是背诵行业常识，而是一种全新的转译能力：把你所在领域的模糊经验，翻译成AI可参与优化的明确指标。具体来说，就是设计评分标准、搭建测试环境、定义验证规则，让机器的每一步都有清晰反馈。

未来的分工很清晰：AI负责解题，人负责出题。谁能设计好考卷，谁就越值钱。答案在贬值，标准在升值。

朴谷观点

朴谷咨询认为，本文揭示了一个被大量技术讨论所忽略的战略盲点：企业数字化转型的关键，从来不是选择“最强”的AI模型，而是重新设计业务流程，使其具备“可验证性”。多数组织在引入AI时，仍然沿用旧的能力框架——比拼知识库大小、生成内容的流畅度、推理的条理性。这些指标在技术平权时代迅速贬值。

真正的差异化能力在于：谁能将模糊的业务目标（如客户满意度、品牌调性、战略落地）拆解为可量化、可测试、可闭环优化的子任务；谁能搭建起属于自己行业的“控制机制”，让AI能够在无人值守的闭环中持续试错并收敛到更优解。这不再是技术问题，而是管理工程问题。

朴谷建议，企业应尽快从“采购AI工具”转向“构建验证环境”。例如，在营销内容生产中，建立A/B测试的自动化评分体系；在客服场景中，将对话质量拆解为可标注的关键行为指标；在战略决策中，设计阶段性验证节点而非一次性方案。只有把“模糊”转化为“可验证”，AI才能真正从辅助工具升级为核心生产力。未来值钱的不是会使用AI的人，而是能重新设计规则、让AI用得更好的人。

Disclaimer: The information provided in this article is for general informational purposes only and does not constitute financial advice.

朴谷分享 | 答案在贬值，标准在升值：未来十年最稀缺的能力是什么？