
AI没变聪明,但突然有用了:未来什么能力更值钱?
过去两三年,AI的飞速进步让很多人误以为它正变得越来越“聪明”。但Keras之父、Google研究员François Chollet最近指出一个反直觉的事实:真正具备商业价值的AI,智商并没有提升,只是被丢进了一个“能分出对错”的环境。
一旦对错可验,AI就能自动试错、自我放大。这就是为什么编程工具迅速走向商用,而写作、创意这类缺乏明确标准的领域进展缓慢。这种分化正在重新定义:“聪明”还值钱吗?
如果你还在用旧尺度衡量自己,可能已经站错了位置。
一、AI智商没涨,但更好用了
代码智能体突然变得极其顺手,写出的程序甚至能直接交付。数学证明辅助也在快速跟进,表现日趋稳定。很多人把这归因为“模型更聪明了”。
其实,关键变化不在智力本身,而在于AI进入了“能把事情做成”的闭环。
以写代码为例:一段程序对不对,当场就能验证——能否跑通?有无报错?测试用例是否通过?AI不必靠猜,也不需要人逐行纠错。它可以反复运行、检查结果、再修改。每次尝试都会留下有效反馈,快速累积后,系统表现便大幅跃升。这就是代码智能体短时间内逼近交付水平的真正原因。
同样的逻辑正在向数学扩散。一个证明是否成立,可用严格规则检验;推导步骤是否正确,也能按逻辑验证。一旦对错分明,数学就具备了与代码相同的快速迭代路径。
这个规律在AI自我测试中也得到了印证。ARC AGI是目前公认最难的非图形智力测试。V1版本发布时,基础模型得分不足10%,直到推理模型出现才有突破。随后更难的V2版本发布,却很快被攻克:研究人员让AI生成类似任务、自行解题、验证答案,再用成功案例反哺训练。短短几个月,准确率被推至97%。
只要能验证对错,AI就能靠海量试错快速进化。
但换到写作、创意、策略这类领域,情况完全不同。没有统一标准,也没有绝对的对错。AI仍能生成内容,但无法像写代码那样自主逼近“正确答案”。这类场景严重依赖人工标注,成本高昂,进展缓慢,容易碰触天花板。
于是行业出现了两种截然不同的节奏:一类问题呈指数级爆发;另一类看似在进步,却始终不稳定,难以跨越商业化门槛。底层逻辑很简单——问题是否能被清晰验证。能验证,AI自己踩油门往前跑;不能验证,AI只能停在“看起来还行”的阶段。
所以,同样是AI,有的场景已能替代人工交付,有的却仍是辅助工具。模型并没有突然变聪明,只是在“对错分明”的环境中被训练得更具执行力。
二、“聪明”正在贬值
剥开技术表象,一个更残酷的真相浮现:过去被职场和教育反复追捧的“聪明”,溢价正快速缩水。
很长一段时间里,社会衡量能力的方式很直接:知识广、反应快、逻辑清。在信息获取成本极高、处理效率低下的前AI时代,这些特质极其稀缺,“聪明”本身就是核心竞争力。
但如今,大模型正在无差别地扫平这些壁垒。信息获取几乎没有门槛,内容整理可以自动化,复杂的表达和逻辑也能瞬间生成。你不再需要长时间积累,就能得到一个“足够聪明”的答案。
这场变革最深远的影响,不是“机器换人”,而是能力评价体系的重构。过去,能给出答案就是赢家;今天,答案变成了最廉价的工业品。真正的考题变成了:谁能用这些答案去解决实际问题?
Chollet的理论恰好解释了这一点:他将能力分为“智力(应对未知)”和“技能(应对已知)”。当系统拥有足够庞大的静态知识储备时,它不需要多高的真实智力,就能在大多数常规工作中表现优异。
AI的狂飙猛进,本质上是靠暴力的算力和海量数据,把许多过去需要人类“聪明”的工作,降维成了纯粹的“知识调用”。这也导致了AGI定义的裂痕:究竟是“万物皆可自动化”,还是“像人一样举一反三”?当下的AI正狂奔向前者——但这只是技能堆积,而非智力跃升。
这恰好契合多数人的使用体感:AI给出的方案完美但往往落不了地;它能条分缕析地解释问题,却缺少把事情做成的闭环能力。这正是“聪明(表达与逻辑)”与“有用(执行与结果)”的分水岭。
当信息的获取和表达都变得廉价,单纯依赖理解快、说得清,已不足以构成护城河。这些能力仍是基础,但不再能拉开差距——它们就像算力和网速那样,一旦成为基础设施,就不再是衡量高下的标准。真正拉开差距的,是另一种能力。
三、什么能力开始变得稀缺?
当“聪明”不再稀缺,什么才值钱?
很多人会回答:执行力、沟通力、领导力。这些当然重要,但还不够精准。真正的答案,藏在第一节的那条分界线里:能不能把一件事,变成可验证的?
现实中,大部分工作并不天然具备这个条件。写文章、做策划、定策略、做创意……目标模糊、标准主观,很难判定对错。于是AI只能停在辅助层面,无法像跑代码那样自我进化。
因此,未来真正稀缺的能力,是把模糊的事情重新设计成可验证的任务。这不是简单的“拆解目标”或“列清单”,而是一种更底层的系统构建能力:搭建验证环境。Chollet称之为“控制机制”。本质上,这是一套人类设计的规则,告诉AI怎么试错、怎么验证、怎么优化。
去年,两家创业公司Poetic和Confluence Labs在攻克极具挑战的ARC V2推理基准测试时,充分展示了这种能力的价值。他们没有去硬拼“更聪明的模型”,而是设计了一套精巧的控制机制:让AI生成类似题目,尝试用程序解题,验证答案正确性,记录成功推理链路,再用这些数据反哺训练。几个月后,Confluence Labs将准确率推至97%,且成本更低。原因不是模型变聪明了,而是有人把原本模糊的推理任务,改造成了一个可反复跑通、持续优化的验证环境。
这个逻辑完全可以迁移到更多商业领域。谁能把主观的客服对话变成可量化的评分维度,谁能把依赖“网感”的短视频脚本拆解成可测试完播率和人设共鸣度的指标,谁能把战略规划变成可阶段性验证的节点,谁就掌握了让AI从“玩具”升级为“生产力”的钥匙。
这也是为什么同样在用AI,有人只是稍微提高了排版效率,有人却直接重构了业务飞轮。差别不在工具,而在重新设计问题、定义规则的能力。
Chollet的建议很明确:你的专业知识越深,越能把工具用好。与其对抗AI进化,不如借力而行。但这里的“专业知识”,不再是背诵行业常识,而是一种全新的转译能力:把你所在领域的模糊经验,翻译成AI可参与优化的明确指标。具体来说,就是设计评分标准、搭建测试环境、定义验证规则,让机器的每一步都有清晰反馈。
未来的分工很清晰:AI负责解题,人负责出题。谁能设计好考卷,谁就越值钱。答案在贬值,标准在升值。
朴谷观点
朴谷咨询认为,本文揭示了一个被大量技术讨论所忽略的战略盲点:企业数字化转型的关键,从来不是选择“最强”的AI模型,而是重新设计业务流程,使其具备“可验证性”。多数组织在引入AI时,仍然沿用旧的能力框架——比拼知识库大小、生成内容的流畅度、推理的条理性。这些指标在技术平权时代迅速贬值。
真正的差异化能力在于:谁能将模糊的业务目标(如客户满意度、品牌调性、战略落地)拆解为可量化、可测试、可闭环优化的子任务;谁能搭建起属于自己行业的“控制机制”,让AI能够在无人值守的闭环中持续试错并收敛到更优解。这不再是技术问题,而是管理工程问题。
朴谷建议,企业应尽快从“采购AI工具”转向“构建验证环境”。例如,在营销内容生产中,建立A/B测试的自动化评分体系;在客服场景中,将对话质量拆解为可标注的关键行为指标;在战略决策中,设计阶段性验证节点而非一次性方案。只有把“模糊”转化为“可验证”,AI才能真正从辅助工具升级为核心生产力。未来值钱的不是会使用AI的人,而是能重新设计规则、让AI用得更好的人。
Disclaimer: The information provided in this article is for general informational purposes only and does not constitute financial advice.
