连接传统自动化与智能体自主性

随着智能体 AI 的兴起，组织开始思考传统自动化在未来将扮演什么角色。但这个问题本身就有偏差。智能体 AI 并不会取代自动化，而是让自动化更有价值。

UiPath 始终走在行业前沿。我们早期采用的计算机视觉和文档理解等 AI 技术，证明了自动化不仅仅是僵化的规则集合。它可以”看见”、”思考”，甚至”推理”。这种思维方式也推动了我们当前关于智能体自动化的愿景：结合 AI 智能体、机器人和人员，实现可长时间运行、自适应的工作流，并支持实时决策。

控制、风险与自主性的光谱

在所有 AI 能力中，始终存在自主性与可靠性之间的权衡。智能体 AI 也不例外。由于其底层模型架构，通常会优先考虑高自主性。这使得 AI 智能体非常适合不确定性高、需要随时调整和适应的任务。然而，企业对不同任务需要不同程度的控制。

这种对细粒度和定制化的需求，塑造了我们对智能体 UI 自动化的独特方案：

智能体 UI 自动化是智能体自动化的一个类别，专注于利用智能体 AI 执行基于 UI 的任务。UiPath 平台通过不同层级提供智能体 UI 自动化，让您能够根据业务需求选择合适的解决方案，在自主性与风险之间取得平衡：

选择器层级

UiPath 语义选择器帮助机器人更好地识别 UI 元素。这发生在微任务层级，覆盖了传统选择器不足的场景，让您以最小风险和最大可预测性受益于智能体 AI。

网页表单层级

与语义选择器类似，UiPath 语义活动在微任务层级使用智能体 AI 处理 UI 元素。但它们能应对更复杂和动态的场景，专为网页表单设计。语义活动为自动化带来更高的弹性和适应性，同时保持有限、受控的自主性。

单应用上下文层级

UiPath ScreenPlay 利用大规模动作模型（LAMs），将您的指令转化为实际的屏幕操作。与上述微任务解决方案不同，ScreenPlay 在整个应用中运行，具备更高的自主性，能够完成传统自动化无法实现的任务。

多应用上下文层级

我们智能体 UI 产品的最终层级将是一个有人值守桌面智能体（目前正在开发中）。它将作为数字助手，能够在多个应用和系统间自主执行任务。

DOM 提取

智能体能力的核心引擎

在深入介绍各层级之前，先谈谈我们所有智能体 UI 自动化能力的核心——AI 驱动的文档对象模型（DOM）提取引擎。

目前大多数关于计算机使用的研究都集中在通过截图观察目标应用的状态和内容。虽然这种方法尽量贴近人类观察环境的方式，但它缺少 DOM 提取的一些关键优势：

能够一次性获取整个可滚动网页，而不仅限于当前视口，避免缓慢低效的滚动操作。基于 DOM 的方法不仅更可靠、准确，还能实现更快的处理速度。

能够利用屏幕 UI 元素中的隐藏有用数据，例如描述图标的隐藏文本标签。

因此，我们大力投入开发了自研的 AI 驱动 DOM 提取引擎。它为语义选择器、语义活动、ScreenPlay 以及 Clipboard AI 功能提供支持（Clipboard AI 被《时代》杂志评为 2023 年最佳发明之一）。Clipboard AI 功能是 UiPath Autopilot 的一部分。

DOM 提取的最大优势在于，它与基于图像的理解协同工作（内部使用 AI 计算机视觉和另一专用 AI 模型来构建目标-锚点对），因此不会遗漏纯 DOM 提取可能忽视的相关屏幕理解线索。

微智能体

智能体故事的起点

智能体自动化不必是”全有或全无”。如前所述，不同业务需求需要不同层级的智能体解决方案。有时，这意味着在微观层级利用智能体 AI 完成小任务。因此，我们提出了”微智能体”的概念，作为传统自动化活动与完全自主智能体之间的智能过渡。

语义选择器和语义活动（如填表、提取表单数据和更新 UI 元素，前称”设置值”）可以定义为微智能体。它们专为特定的高精度任务设计，让您受益于：

任务特定智能

基于生成式 AI 的精确语义匹配

通过分层回退策略实现的可预测执行

这些工具不仅仅是名称上的”微智能体”。它们展现了受控自主性：可靠、有限且稳健。微智能体并不会限制智能体潜力，而是为更高层级的自主性奠定基础，同时确保企业级稳定性。

让我们详细了解语义选择器和语义活动如何实现微智能体的愿景。

语义选择器

让定位更具弹性

基于我们自研的 DOM 提取引擎和 AI 推理引擎（如 GPT），语义选择器提升了自动化识别 UI 元素的方式。传统选择器虽然快速，但脆弱。语义选择器通过允许开发者（或 UiPath Autopilot 等 AI 助手）用通俗语言描述 UI 目标来克服这一问题：”提交表单的按钮”。

在运行时，系统会智能决定使用哪一层回退：先是严格和模糊选择器，然后是语义选择器，最后是计算机视觉。这种”最佳组合”策略既保证低延迟执行，又具备高弹性。

语义活动

面向表单的智能数据提取与输入

语义活动专为表单场景设计，提供直接而强大的数据提取和输入方式。它们利用语义匹配、语义执行和基于 DOM 提取器的交互，处理动态变化的界面元素，避免执行中断。它们可以轻松实现不同类型网页表单之间的数据传输，大大简化表单填写和提取场景。

从微观到宏观

UiPath ScreenPlay

我们将语义选择器和语义活动背后的原则应用到 UiPath ScreenPlay。ScreenPlay 是一个智能体，将智能自动化直接带到用户桌面。与任务特定的微智能体不同，ScreenPlay 跨整个应用运行。它能理解自然语言目标，例如”找到上个月的发票并下载”，并像人类一样自主导航界面以执行所需操作。它还能处理输入/输出并监控 UI 状态。

目前，ScreenPlay 限定在单一应用或 URL 内，确保高可靠性。但它为更广泛的智能体执行模式打开了大门，而不牺牲可预测性。ScreenPlay 的核心是释放大规模动作模型（LAMs）的真正潜力。

有人值守桌面智能体

真正的计算机使用能力

我们并未止步于此。我们的团队正在努力创建下一代有人值守桌面智能体，它将在您的计算机上跨多个应用自主运行，作为数字助手。您可以将其视为能够理解您的工作空间上下文，并在有人值守环境中相应行动的实体。

我们对桌面智能体的愿景不是抛弃传统自动化的优势，而是通过智能层的增强，让自动化更灵活、更具弹性，最终更有帮助。请持续关注桌面智能体的更多更新。

自动化变得更智能了

总结来说，智能体 UI 自动化不是对传统自动化的替代，而是一次进化。从早期的计算机视觉到如今的分层智能体自动化堆栈，我们始终在交付务实、稳健和智能的自动化。

如果说自动化是为了完成重复性任务，那么智能体 UI 自动化则专注于那些无法通过重复操作解决的任务，这些任务需要高度的适应性、自主性、智能性，并依赖多变的输入因素。而这一切始于信任、可预测性，以及逐步迈向自主性的路径——这些都已融入 UiPath 平台的基因。

您不需要在每个问题上都使用最强大的工具；有些问题用更具成本效益的方法就能解决。相反，您需要根据每种情况优化所用工具。因此，您需要一个能够覆盖所有使用场景的灵活平台。对于关键、重复的流程，您可能需要低风险和高可靠性，同时在能为结果增值的地方引入智能和自主性。这一理念呼应了杂货店 REMA 1000 的营销原则：”简约至上”。

以语义活动和语义选择器等微智能体为基础，以当前可用的 ScreenPlay 作为下一阶段演进，再加上我们即将推出的有人值守桌面智能体，UiPath 智能体堆栈让您能够自信而智能地扩展自动化。

1.本内容作为作者独立观点，不代表RPA学习天地立场，RPA学习天地仅提供信息存储空间服务。

2.如果对本稿件有异议或投诉，请联系客服微信号。