OpenAI网站源码意外泄漏，Operator功能曝光引热议

ChatGPT人工智能2025-01-21 15:44:58401

先做个广告：如需代注册ChatGPT或充值 GPT5会员（plus），请添加站长微信：gptchongzhi

OpenAI的网站上悄然出现了关于「Operator」的重要信息。

推荐使用GPT中文版,国内可直接访问：https://ai.gpt86.top

OpenAI的网站上悄然出现了「Operator」系统的技术评估数据，这个全新的计算机使用代理（Computer Use Agent）在多项基准测试中展现出惊人的性能。

这或将成为下一个革命性突破！

Lead Engineer Tibor Blaho发现，OpenAI官网已经包含了多个关键评估数据表格。

其中「Operator System Card Table」显示：在文本编辑基准测试中，Operator获得了92.3%的高分，而Claude 3.5 Sonnet为89.1%，Google Mariner则为85.6%。

在「Operator Research Eval Table」中，系统在命令行操作方面的表现更是亮眼。无辅助模式下达到了87.5%的准确率，辅助模式下更是高达95.8%。相比之下，GPT-4O在相同测试中的得分为100%。

「Operator Refusal Rate Table」则显示，该系统在处理潜在危险指令时的拒绝率为98.2%，展现出极高的安全性。

这个消息一经曝光，立即引发了热烈讨论。

Taher Dhanerawala(@taherdhanera) 认为这项技术即将要发布了：

Operators coming soon :)

不过，也有专家对数据提出了质疑。人工智能研究员Igor Kotenkov分析指出两种可能性：

Operator可能更便宜更快（不太可能）
他们在微调过程中特意过滤了与模型（自我）扩散相关的轨迹。因此他们可以说「这个模型不比现有模型更危险」（可能性较大）

🥇🥈🇩🇪🥉Darth thromBOOzyt📯(@krasmanalderey) 则表达了他的怀疑：

这些结果看起来很奇怪，GPT-4O不可能在现实世界中所有项目都达到100%

关于Operator的具体功能，Allahoum zeyd(@zeydou) 给出了一个重要解释：

Operator是自主的。GPT-4O with vision是告诉你如何做事情。

Sir Mr Meow Meow(@SirMrMeowmeow)更关心其实际应用场景：

如何解读这些指标？Operator是否在某些特定屏幕任务上表现更好？而4O则更擅长控制台相关任务？那么对于自定义GUI呢，比如个人麦当劳模拟器或各种游戏？

Jo(@JoJrobotics)则从模型基础角度分析道：

除非它使用完整的O3模型，如果上述分数是基于o3 mini或gpt-4o作为基础模型，那么这个结果已经很好了。

Frieren(@Frieren_white)也对这个开端表示肯定：

作为起步来说还不错。

从首批披露的技术指标来看，Operator系统虽然在某些方面略逊于GPT-4O，但其自主操作能力和安全性都达到了相当高的水平。

这个专注于计算机控制的AI代理系统，很可能为人机交互带来新的突破。

ChatGPT官网公告翻译，专业技巧与实用指南