IT商业科技网

首页 > AI >

ChatGPT修bug横扫全场,准确率达78%!网友:程序员要开心了

来源:丽娟    时间:2023-02-03 22:11:13    量子位

  原标题:ChatGPT修bug横扫全场,准确率达78%!网友:程序员要开心了

  2023年2月3日讯:ChatGPT到底有多会修bug?

  这事终于有人正儿八经地搞研究了——

  来自德国、英国的研究人员,专门搭了个“擂台”来检验ChatGPT的这项本领。

  除了ChatGPT之外,研究人员还找来了其它三位修bug的“AI猛将”,分别让它们修复40个错误代码。

  结果真是不比不知道,一比吓一跳。

  ChatGPT准确修复了其中31个bug,遥遥领先第二名(21个),直接拿下“AI修bug界”的SOTA成绩!

  于是乎,这项研究引来了众多网友的围观和讨论,Reddit上发布此帖的标题更是用上了“小心”“注意”这样的字眼:

  但事实上,这真的会让程序员“危”吗?

  我们不妨先来看下这项研究。

  很会修bug的ChatGPT

  虽然ChatGPT并非是为了专门修改bug而生,但自打它问世以来,不少网友们都发现它是具备这项能力的。

  因此研究人员为了摸清ChatGPT到底能修改bug到什么程度,便引入了标准的错误修复基准集QuixBugs来进行评估。

  以及与它同台竞技的AI选手,分别是CodeXCoCoNutStandard APR

  研究人员从QuixBugs中挑了40个问题,分别让它们来修复bug。

  让ChatGPT来修bug的方法,就是在对话框里向它提问:

  这个代码有什么错误吗?

  在第一轮较量过后,结果如下:

  从第一轮battle结果来看,ChatGPT修复了19个,CodeX修复了21个,CoCoNut修复了19个,Standard APR则是7个。

  而且研究人员还发现,ChatGPT的答案与CodeX最为相似;这是因为它俩是来自同一个语言模型家族。

  这时候就会有小伙伴要问了,“ChatGPT不是还没有CodeX厉害吗”。

  别急,不要忘了,ChatGPT的一个特点就是越问越“上道”。

  例如在这个基准集中,有一个叫bitcount的问题,ChatGPT在刚才第一轮修复过程中是给出了错误的答案:

  原本ChatGPT应该将第7行的 n ^ = n - 1 改为 n & = n - 1。

  但在第一轮中它的回答是:

  如果没有更多关于预期行为和导致问题的输入信息,我无法判断程序是否存在错误。

  于是在给予它更多信息之后,ChatGPT便答对了这个问题。

  以此类推,在对第一轮没答对的问题进行更多信息提示之后,ChatGPT的修bug能力有了大幅提高:

  最终,ChatGPT在QuixBugs的40个问题里答对了31个。

  网友忧喜参半

  对于这样的实验结果,网友们对ChatGPT修bug拿下SOTA这事产生的态度却不太一样。

  有网友认为这事不应该让程序员感到危机,而是会让他们觉得开心才对。

  言外之意,便是程序员们有了这么好用的工具,干活儿就会变得事半功倍。

不过也有人对此给出了不一样的看法:

  工作变得简单,不也就意味着需要的人力更少了吗?

但还有网友觉得,活儿是干不完的:

  即使AI能把开发时间缩短一个数量级,也只是意味着程序员将更快处理下一个工作。

  整体来看,ChatGPT很会修bug,并不会给程序员带来什么致命伤害。

  但若是把目光放到OpenAI其他的行动中呢?

  全球招外包训练ChatGPT写代码

  在此之前,OpenAI就表示过ChatGPT的重要用途之一是帮助程序员检查代码

  换言之,它被定位可用的辅助工具

  相比“ChatGPT带来威胁”的看法,等ChatGPT能力彻底进化,程序员都不用再怕写bug了。

  OpenAI布局的棋盘上,可不只有改bug偷塔程序员岗位这一件事。

  为了让它更大更强,OpenAI被曝在拉美和东欧等地区,提供了1000个外包岗位

  外包员工的主要工作是标注数据,以及训练ChatGPT写代码

  这1000人中,40%是程序员,他们为OpenAI的模型创建数据,用来学习软件工程任务。

  一直以来,OpenAI的训练数据是从GitHub上抓取的。

  现在外包程序员们新手搓的数据集,不仅包括代码行,还包括代码行背后的人类思考逻辑步骤

  有位南美的软件开发人员爆料,他为OpenAI完成了五小时的无偿编码测试。

  整个过程中,他的任务分为两部分。

  用书面英语解释如何处理一个编码问题;

  提供解决方案。

  如果发现bug,OpenAI会向他详细询问bug的具体情况,并请教如何修正。

  程序员需要展示思考问题的每个步骤,他据此猜测OpenAI很可能想为ChatGPT提供非常具体的训练数据。

  特斯拉前AI主管Andrej Karpathy在推特上调侃:

  最新的热门编程语言是英语。

  不过话说回来,ChatGPT修bug能力强是好事,要真能搞进化到可以完成代码里死记硬背的部分,也是好事。

  毕竟OpenAI成立时对外宣称的宗旨,就是希望“确保通用人工智能可以造福全人类”。

  虽然乍一看它这些年做的事,有点像在致力于用一部分人的努力,让更多人失业

  从Dota2赛场上碾压人类,到GPT-3、DALL-E2、ChatGPT的闪耀表现,它带来的新产品总是伴随着“快要让xxx失业了”的议论声。

  但无论如何,商业却一直对它青睐有加。

  就目前而言,OpenAI的主要商业模式是API费用、token费用和软件许可。

  OpenAI近期还发布了ChatGPT的付费版ChatGPT Pro,每月费用42美元(约合285元人民币)。

  虽然机器人对话初创公司如雨后春笋般冒出,但诸多迹象表明市场对OpenAI的持续看好。

  微软刚刚宣布将向OpenAI加码投资数十亿美元,并将OpenAI的模型融入微软必应等消费级和企业级产品中。

  根据知情人士透露,此次追加投资数额约为100亿美元。

  与此同时,WSJ披露的消息显示,1月初,亿万富翁Peter Thiel创立的风投基金Founders Fund正在就投资OpenAI进行谈判。

  据悉,融资金额将至少达3亿美元

One More Thing

  在第一轮实验中,ChatGPT并没有解决QuixBugs数据集的bitcount问题。

  但若是你现在再重头问一次这个问题,就会发现ChatGPT可以“一遍过”:

  那么这是否意味着ChatGPT已经从这次研究过程中学会求解了呢?

  [1] https://arxiv.org/abs/2301.08653

  [2] https://www.pcmag.com/news/watch-out-software-engineers-chatgpt-is-now-finding-fixing-bugs-in-code

  [3] https://www.reddit.com/r/technology/comments/10oaw6n/watch_out_software_engineers_chatgpt_is_now/

  [4] https://en.wi.bwl.uni-mainz.de/dominik-sobania/

【责任编辑:】

声明:来源非IT商业科技网的作品均转载自其它媒体,转载请尊重版权保留出处,一切法律责任自负。文章内容仅供阅读,不构成投资建议,请谨慎对待。投资者据此操作,风险自担。

频道精选
ARMGPU漏洞暴露安卓升级困局,谷歌Project Zero团队谴责厂商偷懒行

ARMGPU漏洞暴露安卓升级困局,谷歌Project Zero团队谴责厂商偷懒行

谷歌的ProjectZero团队的终极目标是消除世界上所有的零日漏洞,而鉴于近期爆发的ARMGPU漏洞
ARM 手机 GPU 漏洞 谷歌
决战辅助驾驶下半场 极狐、长城、小鹏等车企角逐城市NOA

决战辅助驾驶下半场 极狐、长城、小鹏等车企角逐城市NOA

今年下半年以来,小鹏、极狐、吉利、长城等车企纷纷推出搭载城市 NOA功能产品。
极狐 长城 小鹏 汽车
三星Galaxy S23 Ultra或搭载超声波指纹解锁:识别精度更高更安全

三星Galaxy S23 Ultra或搭载超声波指纹解锁:识别精度更高更安全

随着第二代骁龙8旗舰芯片的正式亮相,一大波搭载该芯片的顶级旗舰很快就将迎来第一波大混战
三星 通信 超声波
分手在即 网易给玩家发问卷调查:你还会玩暴雪游戏吗?

分手在即 网易给玩家发问卷调查:你还会玩暴雪游戏吗?

据官方介绍,2023年1月24日0时起,正式停止暴雪游戏产品的运营,关闭战网登录以及所有游戏服务器,同时关闭客户端下载。
网易 游戏 暴雪游戏
软银研发出以无人机探测灾害被埋者手机信号的技术

软银研发出以无人机探测灾害被埋者手机信号的技术

日本软银现公布了一项新技术,可通过小型无人机探测灾害中被沙土瓦砾掩埋者的智能手机信号并锁定位置。
软银 互联网 手机信号
马斯克:若推特被谷歌苹果下架 将生产属于自己的智能手机

马斯克:若推特被谷歌苹果下架 将生产属于自己的智能手机

据国外媒体报道,马斯克在推特回复网友称,如果谷歌和苹果将推特从应用商店中移除,他将生产一款自己的智能手机作为替代品。
马斯克 手机 谷歌 智能手机
消息称美国FTC可能提起诉讼,阻止微软以690亿美元收购动视暴雪

消息称美国FTC可能提起诉讼,阻止微软以690亿美元收购动视暴雪

据Politico周三援引三位知情人士的话报道,美国联邦贸易委员会(FTC)可能会提起反垄断诉讼,以阻止微软公司对视频游戏发行商动视暴雪公司以690亿美元进行收购。
微软 互联网 动视暴雪
挖台积电墙角 三星3nm喜迎4大客户:百度也有参与

挖台积电墙角 三星3nm喜迎4大客户:百度也有参与

三星也在想办法提升良率,不过更关键的还是如何拉到大客户,韩国媒体表示三星在这方面也不是没有进展,除了三星自己的芯片部门,还锁定了四大客户。
台积电 通信 百度 三星
两大服饰“抄袭惯犯”对簿公堂:江南布衣诉森马开庭,同病相

两大服饰“抄袭惯犯”对簿公堂:江南布衣诉森马开庭,同病相

昨日,江南布衣服饰与浙江森马服饰的案件开庭了。双方就著作权权属、侵权及不正当竞争纠纷,对簿公堂。
江南布衣 互联网 森马
氢燃料电池汽车在韩国已注册2.7万辆 在新能源汽车中占近2%

氢燃料电池汽车在韩国已注册2.7万辆 在新能源汽车中占近2%

据国外媒体报道,在发展新能源汽车的浪潮中,除了混合动力汽车和纯电动汽车,通过氢与氧的化学反应而产生电能进而驱动车辆的氢燃料电池汽车。
氢燃料 汽车 新能源汽车

2017-2019 Copyright © IT商业科技网 备案许可证号豫ICP备18040629号 豫公网安备110102003388号

技术支持:沿亮云科技