“想做啥你就说,电脑自己动起来”,业界首个大模型Agent产品诞生

2023年初,大洋彼岸微软Azure云的一台服务器完成了一次毫秒级运算,之后OpenAI的ChatGPT在全球范围内迅速掀起一场史无前例的大模型风暴,正式开启AIGC元年,也将AI技术及AGI应用推向新一轮高潮。

“你问我答”不仅是ChatGPT开启的全新产品交互形态,更是一张名为“大模型”的问卷,“交卷人”是全球人工智能赛道上数百家争先恐后发布大模型的科技企业,而“问题列表”也在不断迭代更新。

“想做啥你就说,电脑自己动起来”,业界首个大模型Agent产品诞生

活了很多年,发现:

不太会问大模型问题……

大模型遇到的第一个真实瓶颈:想用好ChatGPT,必须学会“有技巧、高水平地问问题”——即,人工提供大量的基础信息和引导词(Prompt)。

痛点总伴随着商机,一时间,各种ChatGPT的引导词(Prompt)教学课程大行其道。但除了商业嗅觉灵敏的群体收获了一波知识付费之外,对ChatGPT等大模型使用的门槛并没有显著降低。

同时,在最初的惊喜问答体验之外,用户更期待能使用大模型完成更实际的具体工作任务。

能不能实现大模型自问自答

并自主完成任务?

2023年4月1日,开源应用程序Auto-GPT横空出世,不到一个月在GitHub上共斩获超72.8k Star。

Auto-GPT可以自主产生引导词(Prompt),并通过Google进行搜索,自动执行python脚本。

虽然还不是真正的产品级应用,也存在不完美之处,比如必须有GPT密钥、成本费用高、需要编程基础、应用范围相对狭窄(以网页操作或者API调用为主)等,但其瞬间爆火确实揭示出:

将大模型与电脑操作结合起来,解决脑力劳动端到端的智能化和自动化是人工智能最值得探索的方向。

能不能干脆让大模型像人一样

自己操作电脑完成工作?

任何先进技术和优秀发明,都需要紧密结合业务并实现产品化落地,方可真正发挥巨大价值。“大模型如何在真实商业场景中快速、有效落地”成为科技界与产业界最关注的首要问题。

2023年8月16日,国内AI准独角兽企业实在智能发布其自研垂直大语言模型“塔斯(TARS)”,同时推出业界首个基于大模型的TARS-RPA-Agent产品,将数字员工应用门槛进一步大幅降低,实现“所说即所得,你说PC做”。实在RPA-IPA,赞 19

实在智能在发布会上通过现场真实操作,在多个常见的工作场景中,展示了TARS-RPA-Agent强大的意图理解能力,以及在复杂操作系统及桌面软件环境下精准的电脑操作能力——但并不是类似“播放歌曲、播报天气、网页订票”等可以通过解析网页源代码、或调用API接口方式所实现的简单人机交互。

以现场演示的一个真实应用为例:

“我明天要去医院看病,

帮我在钉钉上请个假。”

请假是日常工作中的常见场景,对于人类而言非常易懂、易处理,但如果要大模型准确理解并自动操作完成任务,存在比较高的技术门槛。,时长04:51

首先,要能理解。

大模型要理解任务是“在钉钉请假”,并通过上下文推断请假类型是“病假”、明确请假时间段是“明天”。

其次,要能执行。

这也是最关键及更重要的步骤,是要能操作电脑运行、登录钉钉软件,进入工作台界面,找到请假模块,进入后依次填写相关事由、时间等信息,再完成提交。

技术难点扑面而来。

  • 难点一:理解意图后,如果是操作基于浏览器的软件(B/S架构)还相对简单,或许可以采用解析网页源码等方案。但,对于此例中需要操作的钉钉PC版软件,以及其他基于Windows和信创操作系统的千万种客户端软件(C/S架构)而言,并不存在应对无限多种可能场景的无限多种“标准接口”(如请假等)。

解决方案:在这种情况下,只能选择通过RPA方式模拟人类的动作,对电脑软件进行操作。

  • 难点二:对于传统RPA软件,又会遇到新的问题:“如何在理解意图的基础上,对所要操作的软件界面精准识别,明确屏幕画面上哪里是输入框、哪里是登录按钮或者聊天窗口?如果客户端软件出于安全等考虑进行技术封装导致无法直接操作怎么办……”

解决方案:在这种情况下,实在智能基于计算机视觉(CV)大模型的“智能屏幕语义理解”技术(ISSUT)为TARS-RPA-Agent装上了感知世界的眼睛,使其可以“秒懂”屏幕画面,第一时间完成自动解析,带来真正基于人类视觉的电脑屏幕和操作对象理解。

水到渠成,迎刃而解。

总结一下:

TARS-RPA-Agent的核心工作流程包括:自主拆解任务、感知当前环境、执行并且反馈、记忆历史经验,通过文本指令或对话聊天的方式直接生成数字员工,操作各种电脑软件自主完成工作任务。

一言以蔽之,TARS-RPA-Agent让大模型不仅能 “听得懂,想明白”,更可以“看得见,动起来”。

人类的复杂意图往往蕴含在非常简洁的语句当中。笔者儿时曾在《科幻世界》等杂志看到过很多类似“数字助理、机器人小秘书”的情节描述,包括《星际穿越》电影中的“塔斯”机器人,都可以精准理解人类复杂意图并准确无误执行。随着大模型推动AGI时代狂飙猛进,随着第一个大模型Agent的正式诞生,感觉这一次梦想终于开始照进现实,一个更灿烂的人机协同时代即将到来。

声明:
1.本内容作为作者独立观点,不代表RPA学习天地立场,RPA学习天地仅提供信息存储空间服务。
2.未经允许不得转载,如需转载和授权,请联系工作客服微信号。
3.如果对本稿件有异议或投诉,请联系邮箱或工作客服微信号。
作者:RPA学习天地,如若转载,请注明出处:https://www.rpa-learning.com/rpa-learning/7531

发表评论

您的电子邮箱地址不会被公开。 必填项已用*标注