我爱52网

 找回密码
 注册[Register]

QQ登录

只需一步,快速开始

手机号码,快捷登录

查看: 928|回复: 0

你只管提需求,大模子办理题目:图表处置惩罚神器 SheetCopilot 上线

[复制链接]

1241

主题

411

帖子

-1万

积分

积分
-17364
发表于 2023-6-10 15:55:45 | 显示全部楼层 |阅读模式
呆板之心专栏
呆板之心编辑部
各位表格大家终于可以跟那些繁琐的手动操纵说再见了!克日,一款名叫 SheetCopilot 的智能体横空出世,让每个人只必要发号施令就可实现流通的表格操控。
这种丝滑的操纵流程简直是职场人的福音!

你只管提需求,大模子办理题目:图表处置惩罚神器 SheetCopilot 上线,我爱破解

克日,来自中科院主动化所、港理工等机构的研究者们造出了一个「表格 AI 助手」SheetCopilot,该智能体能根据用户指令天生利用表格的办理方案并在特定软件(如:Excel、GoogleSheets 等)上实行。SheetCopilot 可以快速毗连多款表格处置惩罚软件,且支持多表操纵、图表绘制和数据透视表天生,有望赋能多个范畴的表格数据处置惩罚和可视化,并向实现通才智能助手迈出关键一步。

你只管提需求,大模子办理题目:图表处置惩罚神器 SheetCopilot 上线,我爱破解

网站:https://sheetcopilot-demo.github.io/
论文:https://arxiv.org/abs/2305.19308
让我们起首通过以下示例来感受 SheetCopilot 怎样明显提拔工作服从。
如果你是一个刚入职小白,有一天老板要求你帮他分析贩卖数据。你拿到表格一看,上千行的数据眼花缭乱,一时不知从何动手,于是你边查边做。
起首,你实验接纳把各 Product 名称提取出来,然后用公式对各 Product 的收入求和。

你只管提需求,大模子办理题目:图表处置惩罚神器 SheetCopilot 上线,我爱破解

搞了二十多分钟,SUMIF 不停报 "#NAME?" 的错误,遂放弃。
继承上网搜刮,发现另有数据透视表(Pivot table)这么方便的工具,于是开始第二次挑衅。

你只管提需求,大模子办理题目:图表处置惩罚神器 SheetCopilot 上线,我爱破解

又花了二十多分钟,终于搞定。整个过程快要一个小时,服从不如人意。以后每次老板交个你新的表格处置惩罚使命,你之前的履历派不上用场,又得重新开始边查网站边做 : (。
你的同事则利用 SheetCopilot,伸个懒腰的工夫就把各种希奇的要求都完成了 : )。

你只管提需求,大模子办理题目:图表处置惩罚神器 SheetCopilot 上线,我爱破解

看到 SheetCopilot 云云丝滑,你也简朴实验了一下,画个图不在话下。

你只管提需求,大模子办理题目:图表处置惩罚神器 SheetCopilot 上线,我爱破解

有了 SheetCopilot,你再也不消把鼠标滑过半张桌子的间隔来选中超出屏幕的数据了,轻松让上千行数据在多张表之间辗转腾挪。

你只管提需求,大模子办理题目:图表处置惩罚神器 SheetCopilot 上线,我爱破解

为什么提出 SheetCopilot
恒久以来,人们不停渴望拥有纵然没有专业履历也能纯熟把握复杂软件的本领。很多人都曾碰到过如许的环境:不知怎样操纵 PhotoShop 的繁琐界面,想要分析数据却不知道数据透视表这一高级功能,想要绘制齿轮却对 Solidworks 一无所知。
随着具有强盛语言明白和天生本领的大型语言模子(LLM)的出现,这个愿景比以往任何时间都更靠近实际。假如可以或许引导 LLM 把握各种软件,就可以或许开释出 LLM 险些无穷的潜能,进而让人类的生产力到达亘古未有的高度。
这篇文章指出电子表格(Spreadsheet)是举行这项研究的抱负底子,由于它是一种常见的多功能生产工具。然而,表格操控面对着多样化的挑衅,用户难以把握充足的表格处置惩罚和编程本领以应对变革多端的使命需求。
假如有一种通才 AI 智能体,它把握丰富的软件操控技能,那么不但办公服从能得到极大提拔,企业产出也会大大加速。SheetCopilot 的出现恰好契合了人们如许的远景。
SheetCopilot 有哪些亮点
1. 覆盖表格处置惩罚的典范需求
SheetCopilot 涵盖了表格操纵的险些全部典范使命,可以精彩地完成各式图表天生使命。

你只管提需求,大模子办理题目:图表处置惩罚神器 SheetCopilot 上线,我爱破解

贩卖数据分析

你只管提需求,大模子办理题目:图表处置惩罚神器 SheetCopilot 上线,我爱破解

实行图表绘制

你只管提需求,大模子办理题目:图表处置惩罚神器 SheetCopilot 上线,我爱破解

复杂公式盘算

你只管提需求,大模子办理题目:图表处置惩罚神器 SheetCopilot 上线,我爱破解

应用条件格式
2. 逾越基于 VBA 的方法
SheetCopilot 优于用 GPT-3.5 天生 VBA 代码并实行的方法,天生的办理方案的明显优于后者(见下图),这使得 SheetCopilot 有望成为数据处置惩罚职员将来强盛的 AI 辅助工具。

你只管提需求,大模子办理题目:图表处置惩罚神器 SheetCopilot 上线,我爱破解

不但云云,相比于艰涩的 VBA 代码,SheetCopilot 天生的办理方案包罗普通易懂的步调,这免除了学习新编程语言并艰巨调试的痛楚。

你只管提需求,大模子办理题目:图表处置惩罚神器 SheetCopilot 上线,我爱破解

左图:冗长的 VBA 代码;右图:SheetCopilot 简朴易懂的办理方案。
3. 舒服的利用体验
SheetCopilot 在网络毗连稳固的环境下,仅需约 10 步多表组合操纵,即可在上千行数十列的表格中快速完成使命。这不但解放了用户疲劳的双眼,还节流了查找网站并逐个实验操纵步调所浪费的时间,同时也制止了学习 VBA 的本钱。

你只管提需求,大模子办理题目:图表处置惩罚神器 SheetCopilot 上线,我爱破解

方法原理
这篇文章将表格操控所需的焦点功能抽象为一组假造 API(称为原子操纵,见下图),用于天生办理方案,作为 LLM 与应用软件之间交互的桥梁。

你只管提需求,大模子办理题目:图表处置惩罚神器 SheetCopilot 上线,我爱破解

最简朴的方法是对 LLM 的一次查询(query)天生一个使命的全部步调。然而,随着使命复杂度的增长,后序步调更加依靠前序步调的实行效果,导致这种开环控制难以得到精确效果。比方,假如无法确定筛选后可见数据的位置,LLM 就难以确定操纵范围。
为了实现高效的闭环控制,SheetCopilot 根据软件状态反馈和外置原子操纵知识库优化办理方案,提拔了乐成率和服从。
怎样评测
该文提出了一个高质量评测基准。该基准的使命具有多样化的表述,并涉及丰富的原子操纵,如下面词云所示:

你只管提需求,大模子办理题目:图表处置惩罚神器 SheetCopilot 上线,我爱破解

此基准接纳了如下有关乐成率的指标(越高越好):
Exec@1:天生的使命办理方案的实行乐成率。
Pass@1:使命通过率,即实行后能匹配上恣意参考答案的办理方案的占比。
此基准还思量如下服从指标(越低越好):
A50:将符合使命要求的办理方案的步数除以参考答案最少步数,然后对全部盘算效果取中位数。
A90:盘算方式同上,但取全部盘算效果的 90 分位数。该指标反映动作数的极值分布。
实行效果

你只管提需求,大模子办理题目:图表处置惩罚神器 SheetCopilot 上线,我爱破解

表 1:在 SheetCopilot 数据集上对比 GPT-3.5-Turbo、GPT-4、Claude 以及天生 VBA 的方法。
不出料想,GPT-4 符合使命要求的办理方案占比最高且服从最优,而 GPT-3.5-Turbo 则紧随厥后,Claude 最次但也靠近 GPT-3.5-Turbo。
一个值得关注的效果是,与将用户指令翻译成 VBA 代码并在 Excel 上实行的方法对比,SheetCopilot 取得了非常精彩的乐成率。这意味着 SheetCopilot 让软件智能控制离我们又近了一大步,让不会编程的用户能以一样平常交换的方式指挥盘算机完成繁杂的工作。
我们再通过下面各个细分种别上的指标来看一看这三个 LLM 各自的优缺点。

你只管提需求,大模子办理题目:图表处置惩罚神器 SheetCopilot 上线,我爱破解

GPT-3.5 和 GPT-4 十拿九稳地办理了 Management(排序、筛选等表格管理操纵)和 Entry &manipulation(数据输入与利用)这两类使命,均取得了 100% 可实行率。别的,三个 LLM 在差别使命种别中各自体现出最佳服从,这一风趣的发现表明每个 LLM 都有其独特的上风,GPT-4 也难以完胜别的模子。
结语
SheetCopilot 借助 LLM 乐成地将感知、推理和决议通过笔墨接口构成了一个闭环,实现高效的电子表格操控,促进智能软件控制更上一层楼,也为对通才智能体感爱好的研究者带来了新的灵感。
THE END
转载请接洽本公众号得到授权
投稿或寻求报道:content@jiqizhixin.com

帖子地址: 

您需要登录后才可以回帖 登录 | 注册[Register]

本版积分规则

RSS订阅|小黑屋|处罚记录|申请友情链接|我爱破解 ( 浙ICP备20014855号-3 ) 渝公安备案 50011202501206

Powered by Discuz!

© 2001-2017 Comsenz Inc.

快速回复 返回顶部 返回列表