人工智能代理当自由职业者还差得远

作者: aeks | 发布时间: 2025-10-30 09:58 | 更新时间: 2025-10-30 09:58

数据标注公司Scale AI与非营利组织“人工智能安全中心”（CAIS）联合研发了一项新基准——“远程劳动力指数”，用于衡量前沿AI模型自动化有经济价值工作的能力。研究人员让多款领先AI代理执行一系列模拟的自由职业工作任务，结果显示，即便是表现最佳的AI也仅能完成不到3%的工作，在总价值约14.4万美元的任务中仅能赚取1810美元。研究评估了多款工具后发现，能力最强的是中国同名初创公司开发的Manus，其次是xAI的Grok、Anthropic的Claude、OpenAI的ChatGPT以及谷歌的Gemini。
CAIS主任丹·亨德里克斯表示：“希望这能更准确地反映AI能力的实际情况。”他补充道，虽然部分AI代理在过去一年左右有显著进步，但这并不意味着会以同样速度持续提升。
此前，AI的惊人进展引发了关于AI很快将超越人类智能并取代大量工人的猜测。例如，今年3月，Anthropic首席执行官达里奥·阿莫迪曾称，90%的编码工作将在数月内实现自动化。然而，以往的AI浪潮也曾引发过类似的错位预测，比如AI算法即将取代放射科医生等。
该研究通过经验证的Upwork自由职业者生成了一系列任务，涵盖平面设计、视频编辑、游戏开发以及数据抓取等行政杂务。每项任务都配有工作描述、执行所需的文件目录以及人类完成的项目示例。
亨德里克斯指出，尽管近年来AI模型在编码、数学和逻辑推理方面有所进步，但在使用不同工具和执行多步骤复杂任务时仍存在困难。“它们没有长期记忆存储，无法从经验中持续学习，也不能像人类那样在工作中习得技能。”
该分析与OpenAI在9月推出的“GDPval”基准形成对比，后者声称可衡量有经济价值的工作。据GDPval显示，GPT-5等前沿AI模型在各类办公室工作的220项任务上已接近人类能力。OpenAI对此未予置评。
Scale AI研究主任刘冰补充道：“多年来我们一直在讨论AI与就业的关系，但大多停留在假设或理论层面。”
刘冰和亨德里克斯承认，这项新基准并非衡量AI经济影响的完美标准。许多职业包含该指标未涵盖的任务，且现实中许多自由职业者可能会将AI作为工具来提高生产力。
不过，“AI已开始取代工作”的观点正逐渐升温。本周，亚马逊宣布将裁员1.4万人，部分原因归咎于生成式人工智能的快速崛起。亚马逊负责人员体验与技术的高级副总裁贝丝·加莱蒂在公开备忘录中写道：“这一代AI是自互联网以来最具变革性的技术，它使企业能比以往更快地创新（无论是在现有市场领域还是全新领域）。”
然而，若以远程劳动力指数为参考，AI不太可能接手这些被裁岗位。

标签: AI自动化能力人工智能与就业生成式人工智能自由职业任务远程劳动力指数