热点资讯
九游网页版登录入口跨平台 Agent 框架:建议环境感知架构-九游「中国体育」娱乐 官方网站
发布日期:2025-07-15 16:51 点击次数:171
抢先 OpenAI 的" Operator "九游网页版登录入口,清华、复旦、斯坦福等接洽者斡旋起来整了个大活~
他们建议了一个名为"Eko"的 Agent 确立框架,确立者只需用简略的代码和天然谈话,就能快速构建可用于分娩的"诬捏职工":
Agent 不错接受用户的电脑和浏览器,代替东说念主类完成各式任务。
而这个操作,恰是之前 OpenAI 被爆出的" Operator "所能兑现的。爆料称 OpenAI 将会这个月发布" Operator ",当今径直被截胡了。
更为关节的是,接洽团队还把 Eko 给开源了。
来望望 Eko 是奈何让责任历程自动化的。
比如自动在雅虎财经上蚁集纳斯达克的最新数据,包括主要股票的价钱变化、市值、交游量,分析数据并生成可视化文书:
再举例:
现时登录页面自动化测试:
正确的账户和密码是:admin / 666666
请迅速组合用户名和密码进行测试,以考证登录考证是否正常责任,举例:用户名不行为空、密码不行为空、用户名不正确、密码不正确
临了,尝试使用正确的账户和密码登录,考证登录是否成功
生成测试文书并导出
算帐现时目次下大于 1MB 的扫数文献
这是奈何兑现的?
开源版"诬捏职工"确立框架
这项演技的中枢期间翻新有三点:
羼杂智能体暗意:建议了" Mixed Agentic representation ",通过无缝联接抒发高眉目想象的天然谈话(Natural Language)与确立者低眉目兑现的法子谈话(Programming Language)。
跨平台 Agent 框架:建议环境感知架构,兑现归拢套框架和编程谈话,同期营救浏览器使用、电脑使用、动作浏览器插件使用。
分娩级干预机制:现存 Agent 框架大批强调自治性(Autonomous),即无需东说念主类干预,而 Eko 框架提供了显性的分娩级干预机制,确保智能体责任流不错随时被中断和诊疗,从而保险东说念主类对分娩级智能体责任流的有用监管和治理。
环境感知架构(Environment-Aware Architecture)
主要场景包括:
i)浏览器使用:主要专注于通过图形用户界面(GUI)来操作网页和浏览器中的元素,常见的兑现风光包括截图和网页索要期间。
ii)电脑使用:与浏览器不同,Node.js 自动化则主要面向号令行界面(CLI)操作和文献系统不时,夙昔还会引入 GUI 感知才略。
Eko 的跨平台确立是通过其环境感知架构(Environment-Aware Architecture)兑现的,这一架构由三个关节眉目组成:通用中枢(Universal Core)、环境特定器用(Environment-Specific Tools)和环境桥接(Environment Bridge)。
通用中枢:这一层提供了与环境无关的基本功能,如责任流不时、器用注册不时、LLM(大谈话模子)集成和钩子系统。
环境特定器用:每种环境(如浏览器彭胀、Web 环境、Node.js 环境)皆提供了优化的器用集。
环境桥接:这一层慎重环境的检测、器用注册、资源不时和安全罢休,确保不同平台之间或然胜仗互动和通讯。
安全性和探询罢休:Eko 针对不同环境实施了妥贴的安全门径。浏览器彭胀和 Web 环境皆汲取了严格的权限罢休和 API 密钥不时,而 Node.js 环境则允许更平方的系统级探询,基于用户权限进行文献操作和号令施行,在需要时会在施行前恳求用户阐发。
自动器用注册:通过 loadTools ( ) 等器用,Eko 自动注册适用于现时环境的器用,这使得确立者不错在多个环境中无缝地切换,并确保器用的正确加载。
眉目化权略(Hierachical planning)
团队建议眉目化感知框架,将任务的拆解分为两层,包括 Planning layer 和 Execution layer。
其中 Planning layer 慎重将用户的需求(天然谈话或代码谈话暗意)和现存器用集拆解成一个有规模特定谈话(Domain-specific language)暗意的任务图(Task graph)。
任务图是一个有向无环图,形貌了子任务之间的依赖筹商。该任务图由 LLM 一次性合成。在 Execution layer 中,凭证每个任务调用 LLM 来合成具体的施行行为和器用调用。
多步合并优化:当 Eko 检测到两次施行皆是对 LLM 的调用时,会触发框架的自动合并机制,将两次调用的 system prompt 自动整合,合并成一次调用。从而加速推理速率。
视觉 - 交互因素斡旋感知(Visual-Interactive Element Perception)
视觉 - 交互因素斡旋感知框架(VIEP)是一种新颖的浏览器感知责罚决议,通过将视觉识别与元素高下文信息联接,显贵晋升了在复杂网页中的任务精度和恶果。
它通过索要网页中的交互元素(如 A11y 树),并将其映射到规模特定谈话(DSL),生成高效的伪 HTML 代码,简化了元素的表征。
不同于传统的 A11y+Screen shot 决议,VIEP 在视觉信号方面,引入了 Set-of-Mark,确保每个元素的视觉瑰丽符与伪 HTML 中的瑰丽符逐个双应,晋升了元素识别的精度。
为了优化性能,截图分手率被压缩至原始的 60%,同期画质压缩至 50%,减少了资源破钞,同期保捏了富余的识别质料。
与传统的 HTML 暗意比拟,VIEP 通过简化交互元素和生成紧凑的伪 HTML 结构,幸免了径直处理远大 HTML 践诺的支出。举例,Google 首页的 HTML 从 22 万字符减少至仅 1,058 个字符,大幅提高了处理速率和准确度。
VIEP 不仅优化了性能,缩小了本钱,还晋升了跨环境稳妥性,确保自动化操作在不同浏览器和操作系统中踏实运行。
分娩级的可干预机制
在构建 AI 驱动的自动化系统时,确立者时常需要监控任务的施行情况,随时诊疗行为,或在必要时进行干预。
天然"钩子"是软件确立中的常见观念,但在 Eko 中,它们承担了私有的变装——在 AI 自动化和东说念主工监督之间架起了一座桥梁。
简便来说,不错在 Workflow 施行前后插入我方的逻辑,比如考证输入、处理终结、甚而重试失败的任务。
代码如下:
Eko 提供三种不同层级的钩子,每个层级皆具有私有的作用:
责任流钩子(Workflow Hooks)
这些钩子位于责任流的最表层,用于全体罢休和监控自动化历程的启动和收尾。举例,你不错在责任流脱手之前进行资源运漂浮,或在责任流收尾后进行算帐和处理最终终结。
子任务钩子(Subtask Hooks)
这些钩子位于责任流的中间层,允许你在每个子任务脱手前和收尾后进行监控和处理。举例,你不错在每个子任务前纪录日记,或在职务完成后对中间终结进行处理。
器用钩子(Tool Hooks)
这是最细粒度的钩子,允许你在每个器用施行前后进行考证和修改。举例,你不错在器用施行前考证输入参数,或在器用施行后处理复返终结。
钩子不错匡助确立者实时优化责任流,提高自动化系统的精度和恶果。
举例,在施行某些任务时,确立者不错通过钩子对输入数据进行考证,驻防无理信息传入系统;或在职务完成后,处理和漂浮终结,以便更好地垄断输出。钩子还能匡助确立者蚁集施行数据,进行性能分析,识别瓶颈并优化自动化历程。
除了惯例的监控和调试功能,Eko 的钩子系统还营救更翻新的使用场景。
举例,在一些关节任务施行时,钩子不错暂停责任流并恭候东说念主工审批;在 AI 决策出现问题时,确立者不错通过钩子进行东说念主工干预或袒护 AI 的判断,确保业务历程的顺畅。
作家简介
陆逸文,清华大学博士生,接洽酷好为具身智能平台和智能体。
罗卓伟,FellouAI 首席工程内行,咫尺从事东说念主工智能关联规模责任。
马骁腾,清华大学自动化系博士后,博士毕业于清华大学。主要接洽酷好为强化学习和智能体。
陈家棋,复旦大学硕士生,斯坦福大学探询学生学者。主要接洽规模为打算机视觉和智能体。
Homepage:https://eko.fellou.ai/
Github link:https://github.com/FellouAI/eko
Docs:https://eko.fellou.ai/docs/
— 完 —
投稿请发邮件到:
ai@qbitai.com
标题注明【投稿】,告诉咱们:
你是谁,从哪来,投稿践诺
附上论文 / 样子主页联接,以及筹商风光哦
咱们会(尽量)实时陈诉你
点这里� � 护理我,难忘标星哦~
一键三连「共享」、「点赞」和「在看」
科技前沿推崇日日相逢 ~