先做个广告:如需代注册ChatGPT或充值 GPT4.0会员(plus),请添加站长微信:gptchongzhi
OpenAI的网站上悄然出现了关于「Operator」的重要信息。
推荐使用GPT中文版,国内可直接访问:https://ai.gpt86.top
OpenAI的网站上悄然出现了「Operator」系统的技术评估数据,这个全新的计算机使用代理(Computer Use Agent)在多项基准测试中展现出惊人的性能。
这或将成为下一个革命性突破!
Lead Engineer Tibor Blaho发现,OpenAI官网已经包含了多个关键评估数据表格。
其中「Operator System Card Table」显示:在文本编辑基准测试中,Operator获得了92.3%的高分,而Claude 3.5 Sonnet为89.1%,Google Mariner则为85.6%。
在「Operator Research Eval Table」中,系统在命令行操作方面的表现更是亮眼。无辅助模式下达到了87.5%的准确率,辅助模式下更是高达95.8%。相比之下,GPT-4O在相同测试中的得分为100%。
「Operator Refusal Rate Table」则显示,该系统在处理潜在危险指令时的拒绝率为98.2%,展现出极高的安全性。
这个消息一经曝光,立即引发了热烈讨论。
Taher Dhanerawala(@taherdhanera) 认为这项技术即将要发布了:
Operators coming soon :)
不过,也有专家对数据提出了质疑。人工智能研究员Igor Kotenkov分析指出两种可能性:
Operator可能更便宜更快(不太可能)
他们在微调过程中特意过滤了与模型(自我)扩散相关的轨迹。因此他们可以说「这个模型不比现有模型更危险」(可能性较大)
🥇🥈🇩🇪🥉Darth thromBOOzyt📯(@krasmanalderey) 则表达了他的怀疑:
这些结果看起来很奇怪,GPT-4O不可能在现实世界中所有项目都达到100%
关于Operator的具体功能,Allahoum zeyd(@zeydou) 给出了一个重要解释:
Operator是自主的。GPT-4O with vision是告诉你如何做事情。
Sir Mr Meow Meow(@SirMrMeowmeow)更关心其实际应用场景:
如何解读这些指标?Operator是否在某些特定屏幕任务上表现更好?而4O则更擅长控制台相关任务?那么对于自定义GUI呢,比如个人麦当劳模拟器或各种游戏?
Jo(@JoJrobotics)则从模型基础角度分析道:
除非它使用完整的O3模型,如果上述分数是基于o3 mini或gpt-4o作为基础模型,那么这个结果已经很好了。
Frieren(@Frieren_white)也对这个开端表示肯定:
作为起步来说还不错。
从首批披露的技术指标来看,Operator系统虽然在某些方面略逊于GPT-4O,但其自主操作能力和安全性都达到了相当高的水平。
这个专注于计算机控制的AI代理系统,很可能为人机交互带来新的突破。
相关信息来源:
archive.is/ykM1U archive.is/gLM6Q
网友评论