# OpenAI推出AI智能体——Operator，预计年底将普及电脑操作

By [yeshou](https://paragraph.com/@yeshou) · 2025-02-10

---

2024年10月，Claude 3.5 Sonnet推出了一项突破性的新功能：计算机使用能力（computer use）。开发者可以指导Claude像人类一样使用电脑，包括查看屏幕、移动鼠标、点击按钮和输入文字等。

Claude能够理解复杂指令，自动完成一系列操作，如浏览网页、查找信息、填写表格，甚至进行软件测试和开发。用户只需观察，仿佛有真人在远程操控电脑，十分神奇。

2025年初，人工智能公司OpenAI举行了直播活动，发布了备受期待的首款AI智能体——Operator，能够代理用户执行基于网页的操作，真正实现像人类一样使用网页浏览器。

与传统的“问一句、答一句”的聊天机器人不同，AI智能体（AI agent）能够在有限的人类监督下完成设定任务，被广泛视为AI生产力的下一个里程碑。在OpenAI通往通用人工智能（AGI）的五个步骤中，AI智能体是继聊天机器人和推理机器人之后的第三步，也是全新的一步。

山姆·奥尔特曼介绍称，美国的ChatGPT Pro用户（每月200美元）将能使用“研究预览版”的Operator。未来将扩展到更多区域的Pro用户，几个月后ChatGPT Plus用户也能使用。同时，未来几周和几个月内，还会发布更多的AI代理。

什么是Operator？
------------

Operator由一个名为CUA（计算机使用代理）的新模型驱动，结合了GPT-4o的视觉能力，以及通过强化学习实现的高级推理。Operator能够“看见”网页（截图），并使用鼠标和键盘进行互动。如果在操作中遇到困难，模型会调用推理能力进行自我纠正，若仍无法解决问题，则会将控制权交还给人类。

要理解这种新事物，生动的案例是最好的方式。

Operator的界面与聊天机器人ChatGPT类似，最大的区别在于它能够调用“AI代理”完成用户的请求。在演示案例中，Operator被要求预订某家饭店。用户只需在对话框中输入“给我订一个XX饭店今晚19点的桌子”，AI代理便会自动打开网页，进入预订网站，搜索餐厅并完成预订。

如果用户所需的时段已被订完，AI会询问：“19点的桌子订完了，19点45分的桌子还有，要不要订？”

OpenAI也提醒用户，尽管Operator是市面上最强的AI代理，但与人类相比仍有差距。例如，在使用浏览器的基准测试中，OpenAI CUA模型的评分为58.1%，而人类的水平可达78%。因此，这项新技术仍可能出现错误，但会在未来几个月内持续改进。

目前，Operator擅长处理短任务和重复性操作，但在复杂任务（如幻灯片制作、日历管理）上表现不佳。例如，处理多步骤任务时，模型可能因界面变化或意外事件而失败。此外，在处理长DNA序列、随机字符串（如API密钥）或复杂代码时，Operator的光学字符识别（OCR）系统表现不佳。

这是因为任务超出了训练数据的范围，导致模型在识别和操作内容时容易出错。尽管OpenAI已采取多种措施防止提示注入攻击和恶意指令，但Operator在面对新型对抗性攻击时仍可能表现出脆弱性。

然而，AI这一趋势正在快速进化，预计到2025年底，各大AI公司推出的AI智能体都将能够熟练操作电脑，实现人机互动。

👉 [野卡 | 一分钟注册，轻松订阅海外线上服务](https://bit.ly/yeka)

---

*Originally published on [yeshou](https://paragraph.com/@yeshou/openai-ai-operator)*