您当前的位置：首页资讯正文

新大模型专为编程而来

2023-06-22 19:52:35 机器之心

【资料图】

机器之心报道

编辑：陈萍

开源 LLM 的性能越来越好了。

最近一段时间，随着大语言模型（LLM）的不断发布，LLM 排位赛也变得火热起来，研究者们试图在新的 LLM 评测系统中不断刷新自家模型的分数。

在这当中，斯坦福发布的全新大语言模型排行榜 AlpacaEval 比较出圈，它是一种基于 LLM 的全自动评估基准，且更加快速和可靠。很多著名的模型如 GPT-4、ChatGPT 等都在其上刷榜单。

前段时间，来自微软的华人团队发布的 WizardLM（是一个经过微调的 7B LLaMA 模型）在一众模型中获得第四名的好成绩，排在其前面的分别是 GPT-4、Claude 以及 ChatGPT，可见，WizardLM 成绩还是很能打的。

近日，WizardLM 团队又发布了新的 WizardCoder-15B 大模型。至于原因，该研究表示生成代码类的大型语言模型（Code LLM）如 StarCoder，已经在代码相关任务中取得了卓越的性能。然而，大多数现有的模型仅仅是在大量的原始代码数据上进行预训练，而没有进行指令微调。因而该研究提出了 WizardCoder，它通过将 Evol-Instruct（该方法生成具有不同难度级别的指令）方法应用于代码领域，为 Code LLM 提供复杂的指令微调。

在 HumanEval、HumanEval+、MBPP 以及 DS1000 四个代码生成基准测试中，WizardCoder 在很大程度上超过了所有其他开源 Code LLM。此外，WizardCoder 在 HumanEval 和 HumanEval + 上的表现甚至超过了最大的闭源 LLM，如 Anthropic 的 Claude 和谷歌的 Bard。

论文地址：/pdf/

代码地址：/nlpxucan/WizardLM

在方法上，该研究表示受到 WizardLM 提出的 Evol-Instruct 方法的启发，除此以外，该研究还尝试将代码指令变得更加复杂，以提高代码预训练大模型的微调效果。

在代码生成领域，统一的代码 prompt 模板如下：

本文使用的五种类型如下：

该研究采用以下过程来训练 WizardCoder。最初，他们使用 StarCoder 15B 作为基础，并使用代码指令 - 跟随（code instruction-following）训练集对其进行微调，该训练集通过 Evol-Instruct 进化而来。微调 prompt 格式概述如下：

WizardCoder 性能如何？

与闭源模型的比较。用于代码生成的 SOTA LLM，如 GPT4、Claude 和 Bard，主要是闭源的。然而获得这些模型 API 的访问权限难度很大。该研究采用另一种方法，从 LLM-Humaneval-Benchmarks 中检索 HumanEval 和 HumanEval + 的分数。如下图 1 所示，WizardCoder 位列第三，超过了 Claude-Plus（ vs ）和 Bard（ vs ）。

值得注意的是，与这些模型相比，WizardCoder 模型大小要小得多。此外，WizardCoder 比其他经过指令微调的开源 LLM 表现出更显著的优势。

与开源模型的比较。表 1 在 HumanEval 和 MBPP 基准上对 WizardCoder 与其他开源模型进行了全面的比较。表 1 结果表明，WizardCoder 比所有开源模型都具有显著的性能优势。

总结而言，从图 1 和表 1 的实验结果中，可以得出以下结论：

WizardCoder 的性能优于最大的闭源 LLM，包括 Claude、Bard、PaLM、PaLM-2 和 LaMDA，尽管它要小得多。

WizardCoder 比所有的开源 Code LLM 都要好，包括 StarCoder、CodeGen、CodeGee 以及 CodeT5+。

WizardCoder 显著优于所有具有指令微调的开源 Code LLM，包括 InstructCodeT5+， StarCoder-GPTeacher 和 Instruct-Codegen-16B。

下图为不同模型在 DS-1000 基准上的结果：

©THE END

转载请联系本公众号获得授权

投稿或寻求报道：content@

关键词：

上一篇：全球今亮点！小猫咪大城市demo版配置详情

下一篇：最后一页

“如果发现本网站发布的资讯影响到您的版权，可以联系本站！同时欢迎来本站投稿！

动态

收藏整理，燕赵古籍藏量丰富

2022-03-21
一批百米高速轨将铺上廊坊市境内的津兴铁路

2022-03-21
河北省开展建筑垃圾清理整治工作

2022-03-21
“中国共产党将取得新的更大胜利”（百名外国政党政要看中共）

2021-12-21
“五眼联盟”必须收回干预香港事务的黑手（钟声）

2021-12-21

关注

新大模型专为编程而来

2023-06-22

机器之心报道编辑：陈萍开源LLM的性能越来越好了。最近一段时间，随着
全球今亮点！小猫咪大城市demo版配置详情

2023-06-22

小猫咪大城市每个版本更新后都会带来更多内容，而这也会产生很多问题，
当前热议!闹市街头，这名央企00后党员作了这个抉择

2023-06-22

极目新闻通讯员刘艳玲李天元闹市街头，一名老人倒在地上，到底是扶还
当前播报:冒险岛天使的祝福戒指（冒险岛天使的祝福）

2023-06-22

导读1、天使的祝福需要以下材料：青铜25个中级研磨剂10个中级物品结晶10个
环球最资讯丨好的美术画室培训_好的美术画室

2023-06-22

1、2021年美术升学率最好的集训画室我们江苏是无形画室。2、江苏无形画
第七史诗水属性角色外号昵称详解攻略-全球即时看

2023-06-22

还有许多第七史诗童鞋还不了解第七史诗水属性角色外号昵称详解攻略，现
最资讯丨经观带你拿offer！6月25日参加新闻与传播学院双选会专场，就业、实习全都有！

2023-06-22

“劝退”、“理想主义”、“没前途”……为何新传专业，总会被人打上这
重点聚焦!聚合硫酸铁液体商品报价动态（2023-06-22）

2023-06-22

交易商品牌产地交货地最新报价聚合硫酸铁液体　含量10%河南利维特化工
世界观速讯丨摩根士丹利分析师：特斯拉超级充电站网络价值超过1000亿美元

2023-06-22

近日，摩根士丹利分析师AdamJonas表示，特斯拉的超级充电站网络将为公
纹嘴唇恢复过程_纹嘴唇恢复过程图

2023-06-22

1、与客户的沟通2、了解顾客的需求，引导顾客按照正确的审美观化妆。如
地铁5、6、9号线运行图6月22日起调整

2023-06-22

天津北方网讯：记者从天津轨道交通集团获悉，为满足市民乘客节假日出行
焦点播报:天天热议:如何办理一般强制执行立案

2023-06-22

一般强制执行立案的办理流程是当事人提出申请、法院受理、利害关系人申
激扬青春梦想闪耀青春光芒——共青团十九大解放军和武警部队代表风采录

2023-06-22

新华社北京6月21日电新华社记者张瑞杰青春迎盛会，奋进正当时。中国共
富大龙十部经典电视剧_没想到最穷影帝

2023-06-22

hello大家好，我是城乡经济网小晟来为大家解答以上问题，富大龙十部经
可口的披萨美味的披萨第四章怎么过美味的披萨怎么进入第三章热消息

2023-06-22

可口的披萨美味的披萨第四章怎么过，可口的披萨美味的披萨第四章是全新
Redmi K60 Ultra关键参数敲定：1.5K直屏+天玑9200+芯片动态焦点

2023-06-22

快科技6月22日消息，博主数码闲聊站透露，RedmiK60Ultra即将发布，这款
今日热搜：上海环境（601200）：6月21日北向资金增持13.43万股

2023-06-22

6月21日北向资金增持13 43万股上海环境。近5个交易日中，获北向资金减
杰瑞股份终止境外发行全球存托凭证事项

2023-06-22

　　上证报中国证券网讯（记者骆民）杰瑞股份公告，鉴于内外部环境等客
每日观点：亚联财小额信贷亚联财小额信贷公司）

2023-06-22

亚联财小额信贷是指由亚联财经公司提供的小额贷款服务，借款项目通常额
24小时客服在线咨询_韵达快递客服人工在线今日要闻

2023-06-22

1、首先进入微信界面，点击上面的搜索框。2、在搜索框中输入“大云”，
慌张的反义词和近义词_慌张的反义词

2023-06-22

1、我是从反义词词典上找到的，希望能帮上你忙！请把我设为满意答案！
苹果宣布WWDC20Swift学生挑战赛获奖者-天天微头条

2023-06-21

在WWDC虚拟开发人员活动的同时，Apple举办了Swift学生挑战赛，邀请13岁
德国指控谷歌汽车服务垄断：将禁止捆绑行为|热资讯

2023-06-21

而谷歌对此表示：「当前，联网汽车市场存在着激烈的竞争，有数千款应用
世界看热讯：win10小锐wifi连不上小锐wifi开启失败

2023-06-21

1、可以尝试按以下方式来解决：1 先尝试重启手机，并再试着搜索一次。2
为什么有的茶叶很苦有的不苦呢全球新要闻

2023-06-21

关于为什么有的茶叶很苦有的不苦呢的内容,包含陈皮为什么有的苦有的不
全球观速讯丨张作霖简介生平（张作霖简介）

2023-06-21

您好,现在蔡蔡来为大家解答以上的问题。张作霖简介生平，张作霖简介相
河南天壕新能拟北交所IPO 募资3亿元全球讯息

2023-06-21

【大河财立方消息】6月21日，天壕新能源股份有限公司（以下简称“天壕
因赛集团：拟定增募资不超6.45亿元用于营销AIGC大模型研发与应用等项目

2023-06-21

南方财经6月21日电，因赛集团公告，拟定增募资不超过6 45亿元，用于营
金融BPO行业市场如何?金融BPO行业市场深度调研报告-世界热议

2023-06-21

所谓金融BPO，即金融业务流程外包，是指金融企业将部分非核心业务流程
范敬宜文集：敬宜笔记_关于范敬宜文集：敬宜笔记的简介

2023-06-21

音频解说1、《范敬宜文集：敬宜笔记》是清华大学出版社出版的图书，isb