UI Agent 如何释放大型行动模型的真正潜力

自动化领域正在经历重大变革。如果您最近关注科技领域,可能听说过大型行动模型(Large Action Models, LAMs)以及它们如何为工作自动化带来重大变革。Anthropic 的 ComputerUse 和 OpenAI 的 Operator 都因能使用自然语言指令操控计算机而备受瞩目。

这项技术确实令人印象深刻,但公众认知与现实之间仍存在差距。今天,我们将揭示 UI Agent 的本质 —— 它们是什么,能做什么(以及不能做什么),以及为什么 UiPath 的方案可能是当前在企业环境中真正发挥其价值,并实现大规模、稳定、无人值守部署的可行方案。

UI Agent 如何释放大型行动模型的真正潜力

什么是 UI Agent?

UI Agent 由大型行动模型模型驱动,这类 AI 系统经过训练,能以人类的方式(使用鼠标和键盘)操作计算机。其革命性在于,它们不像传统 RPA 那样依赖硬编码步骤和传统选择器,而是基于目标和自然语言指令执行任务。

您无需编程每个具体步骤(例如导航到文件夹、向下滚动、点击文件等),只需设定目标,例如“找到上个月的发票并下载它”。

这些智能体能够“识别”屏幕内容、理解上下文,并能适应界面变化——这些变化往往会导致传统自动化方案崩溃。它们为自动化带来了前所未有的灵活性和智能水平。

更好、更快、更简单

这项技术的潜力巨大:

更强的韧性

当 UI 更新或元素动态变动时,UI Agent 能够适应,不会崩溃

更低的门槛

创建自动化流程变得简单得多,所需技术专业知识更少

实现过去不可行的任务

可在界面不同的系统中自动执行相同的基础操作——例如,在数百个不同网站上输入相同的数据。若使用传统 RPA,则需为每个网站单独开发

新增认知能力

智能体能在上下文中做出决策,基于语义标准浏览网站,从多个来源提取洞察,甚至无需事先接触即可操作陌生界面

跨平台兼容性

可跨操作系统运行,扩大企业的自动化覆盖范围

所有这些都意味着更低的自动化总体拥有成本,并为许多过去不可行或自动化成本过高的场景打开了大门。

现实考量

潜力虽大,局限同样存在。尽管技术令人兴奋,当前这一代大型行为模型仍面临多项挑战:

相比传统 RPA,它们的运行速度可能较慢。

运行成本较高。

在较长、复杂的流程中表现可能不够稳定。

值得注意的是,目前市场上的模型基本都属于第一代(V1)产品。尚无 V2 模型问世。技术仍处于早期阶段,即使在成功案例中,这些模型在长流程中的可靠性也相对较低。多次运行相同的指令,它们无法保证 100% 成功,运行结果也不一致。

不过,其改进速度非常显著。今天看似困难的任务,六个月后可能就变得轻而易举。这些模型正在快速发展。但就目前而言,它们更像是具备独特优势但也有明显局限的熟练助手,令人印象深刻,但还不足以在无人监督的情况下运行整个业务流程。

让 LAM 执行“帮我买一张去纽约的机票”这样的任务,在演示中或许偶尔成功,但在生产环境中运行上千次,出现的故障率在企业环境中将是不可接受的。

寻找最佳结合点

那么,如何在规避当前局限的同时,充分利用这项技术的力量?

答案是:微任务

经过大量测试,我们发现 LAM 在处理非常短的 1 至 5 步序列时表现尤为出色——几次点击、几个输入操作。正是在这类场景下,可靠性开始接近企业级标准。

适用于 UI Agent 的优秀微任务示例

在动态内容变动的位置上定位并点击某个特定按钮。

根据上下文填写表单字段。

基于语义标准从表格中提取特定数据。

乍看之下似乎受限,但有一个强大的解决方案:将这些微任务与传统自动化能力相结合。

集成是关键

这正是 UiPath 的价值所在。我们相信,目前要在生产环境中实现大规模、稳定、无人值守地使用 LAM,可行的方法就是通过与 UiPath 平台这类自动化平台深度集成。

我们的方案行之有效:

1

一站式接入先进模型

UiPath 平台提供开箱即用的 Anthropic ComputerUse、OpenAI Operator 以及我们自有模型的接入。无需管理多个许可证或集成系统。随着新模型涌现,我们将持续引入,确保您始终能使用最适合每项工作的工具。鉴于不同模型的价格和能力差异巨大(甚至达到数量级),这一点尤为重要。

2

深度平台集成

我们将这些模型嵌入自动化平台,使您能够:

串联多个“微任务”,构建复杂可靠的流程。

将 LAM 能力与我们全套 RPA 工具相结合。

调试和引导模型以实现最佳性能。

3

企业级能力

使用您已信任的强大工具(如 UiPath Orchestrator)来调度、监控、审计和扩展您的自动化流程。

集成方案的重要性

虽然我们相信这种集成方案是目前在企业环境中部署 LAM 唯一可行的方式,但我们预计它很快将成为行业标准。自动化的未来并非 LAM 取代 RPA,而是智能地结合这些技术,取得“1+1>2”的效果——正如 API 自动化与 UI 自动化长期并存一样。

实践案例

这种方法的威力在实际案例中显而易见:

设想一个需要与 Web 应用程序交互的自动化流程,该程序的元素位置会随内容动态变化。传统 RPA 可能因难以找到可靠的选择器而挣扎,需要复杂的变通方法和持续的维护。

借助 UI Agent,您只需下达指令:“点击最新条目旁边的‘下载报告’按钮”。智能体理解语义关系,无论按钮出现在屏幕何处,都能完成任务。

我们甚至展示了 UI Agent 的灵活性:让它们在多个界面相似但完全不同的视频游戏中识别并点击“游玩”按钮,而无需为每个游戏单独编程。这在传统自动化方法是无法实现的。

无论是基于图像识别还是选择器的自动化都会失效,因为这些按钮外观不同、语言各异,且选择器不可用。理解上下文并适应不同视觉布局的能力,恰恰展示了这项技术在恰当应用时的巨大前景。

未来已来,当下何为?

LAM 最终是否会强大到无需协助即可处理整个复杂流程?这几乎是可以肯定的。但那个未来尚未到来。

与此同时,UiPath 的方案让您现在就能开始收获这项革命性技术带来的效益,同时不牺牲业务所需的可靠性和可扩展性。

UI Agent 并非要取代传统RPA。它们是在增强 RPA,创造整体大于部分之和的效果。

1.本内容作为作者独立观点,不代表RPA学习天地立场,RPA学习天地仅提供信息存储空间服务。

2.如果对本稿件有异议或投诉,请联系客服微信号。