SeeClick: Harnessing GUI Grounding for Advanced Visual GUI Agents论文学习

news/2024/9/29 15:54:23 标签: 学习

首先是惯例强调一下自己的工作是基于视觉的,不是那种拿一个html文件或者UI结构树给模型让他操作的工作。然后提出了一个很有意思的观点,认为Grounding能力(定位能力)对模型表现的影响非常大。

主要novelty就这几个:

我们的主要贡献如下:•我们开发了一个统一的可视化GUI代理SeeClick,它仅依靠界面截图在不同的GUI平台上执行点击和打字操作。

•我们前瞻性地探索了可视化GUI代理的GUI基础,并通过提出的GUI基础预培训策略增强了SeeClick。

•我们创建了一个逼真的GUI基础基准ScreenSpot,包含来自各种GUI平台的1200多条指令。

•ScreenSpot和三个代理任务的实验结果表明,增强代理的接地能力是提高下游代理任务性能的关键。

接下来文章提到了grounding能力的一些细节。文章提到从前的很多工作会把图像分成很多部分然后训练模型识别目标在哪一个块里。本文则要求模型直接用自然语言方式输出目标,然后计算与真实结果的交叉熵。

至于项目中构建的数据集ScreenSpot,作者是网络爬取了web数据,从开源数据集中充足了一部分手机的轨迹数据,还照搬了一部分开源数据(LLAVA的常规数据)。

“Web UI具有跨网站的各种布局和设计风格,是训练LVLM在不同GUI上下文中的一般识别和基础能力的理想选择。我们从最新的Common Crawl存储库中收集了大约30万个网页,作为我们的web UI培训数据。对于每个网页,我们从HTML代码中收集两种类型的元素,如图3所示:(1)显示可见文本内容的元素;以及(2)具有特殊“title”属性的元素,在悬停时显示描述性文本。这种方法确保我们收集一系列可交互的元素y及其相应的指令x,同时包含广泛的文本和图标元素。除了基础任务p(y|s,x)外,我们还包括基于坐标预测文本描述的web OCR任务p(x|s,y)。”

“移动数据。对于移动UI,我们包括三种类型的数据:小部件字幕、移动UI基础和移动UI摘要。小部件字幕数据集为移动UI元素提供语言描述;例如,音乐播放器界面上播放按钮的描述“播放音乐”。”

最后还照搬了一部分开源数据(LLAVA的常规数据)

模型训练方面,文章的基础模型是Qwen-VL,在上面的数据集训练了1个epoch,用了LoRA。

实验部分,首先实验定位能力,与各种模型battle 巴拉巴拉,然后又是在三大件上面进行传统功夫GUI agent实力比拼,结果如下:

接下来是一些训练细节,做ppt的时候再看


http://www.niftyadmin.cn/n/5683302.html

相关文章

一文速读 LLaMA3.2-Vision 模型的结构

随着 Meta 放出了 LLaMA3.2 系列模型,LLaMA 系列也是正式迎来了官方版本的多模态大模型 LLaMA3.2-Vision [1]。那我们就在本期内容中聊一聊 LLaMA3.2-Vision 模型的结构,希望对大家有所帮助。 相关代码位于 [2] 结论 先说结论,LLaMA3.2 的…

【Rockchip系列】官方函数:importbuffer_virtualaddr

importbuffer_virtualaddr 对于需要RGA处理的外部内存,可以使用importbuffer_virtualaddr接口将缓冲区对应的虚拟地址信息导入到RGA驱动内部,并获取缓冲区相应的地址信息,方便后续稳定、快速地调用RGA完成工作。 函数原型 RGA提供了三个版本…

4.3章节python中循环结构:两种类型:for 循环和 while 循环用法

Python 中的循环结构主要有两种类型:for 循环和 while 循环。每种循环都有其特定的使用场景,允许你根据需要重复执行代码块。 一、遍历循环for语句 for 循环用于遍历任何序列(如列表、元组或字符串)或其他可迭代对象 (1)for 循环…

Nagle 算法:优化 TCP 网络中小数据包的传输

1. 前言 在网络通信中,TCP(传输控制协议)是最常用的协议之一,广泛应用于各种网络应用,如网页浏览、文件传输和在线游戏等。然而,随着互联网的普及,小数据包的频繁传输成为一个不容忽视的问题。…

VB中如何实现设计模式(如单例模式、工厂模式等)

在VB(Visual Basic)中实现设计模式,如单例模式和工厂模式,与在其他面向对象编程语言中实现这些模式非常相似。设计模式是一种解决常见软件设计问题的最佳实践。下面将分别介绍如何在VB中实现单例模式和工厂模式。 单例模式&#…

Pycharm 本地搭建 stable-diffusion-webui

一、下载工程源码 Github官方连接 https://github.com/AUTOMATIC1111/stable-diffusion-webui 二、Pycharm打开工程 1、设置环境 文件-设置-项目-Python解析器-添加解释器-添加本地解释器 Conda环境-创造新环境-Python版本3.10 注意一定要选择Python3.10版本,否…

怎么查看员工电脑安装了什么软件

1、使用专业监控软件:安装如金刚钻信息网站行为审计系统、WorkWin等专业的电脑监控软件。这些软件能够实时监控员工的电脑操作,包括安装的软件、运行的程序等。通过软件的管理端,您可以轻松查看员工电脑上安装的所有软件,并可以设…

【议题征集 】上海站 nMeetup 将于十月份开启!

上海,作为我国的经济和金融中心,正迅速发展成为全球领先的科技创新城市。这座城市不仅拥有深厚的文化底蕴,还积极拥抱数字化转型,推动着数据库和人工智能基础设施的快速发展。第三站 nMeetup 我们将走进上海,本次活动由…