0

0

0门槛克隆ChatGPT!30分钟训完,60亿参数性能堪比GPT-3.5

王林

王林

发布时间:2023-04-11 20:55:01

|

2883人浏览过

|

来源于51CTO.COM

转载

此前,OpenAI不Open的事件,已经引发了坊间的诸多争议。

光放出基准和测试结果,不提供训练数据、成本、方法,是真的要「赢家通吃」了。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

图片

眼看大语言模型似乎要被巨头公司垄断,如今忽然杀出一个初创公司,给了OpenAI一枪——用60亿参数的「Dolly」实现了和ChatGPT相似的能力。

没错,我们现在只需要准备一些高质量的训练数据,再随便拿一个开源的大语言模型,训练30分钟后,就能得到一个ChatGPT「平替」!

对此,Databricks自豪地表示,Dolly的发布,就是自己在人工智能技术民主化道路上打响的第一弹。

图片

60亿参数堪比ChatGPT,30分钟就训好

由于ChatGPT需要消耗大量的数据和算力资源(利用数万亿个单词训练,消耗大量GPU),所以这类大语言模型注定只能被少量巨头所掌握。

和「CloseAI」相反,Meta在今年3月向学术界发布了一组高质量(但不是指令跟随的)语言模型LLaMA,每个模型的训练时间超过了80,000个GPU小时。

随后,斯坦福大学基于LLaMA构建了Alpaca,但不同之处在于,它利用一个包含50,000个问题和答案的小数据集进行了微调。令人惊讶的是,这使得Alpaca具有了类似于ChatGPT的交互性。

而Dolly正是受到了Alpaca的启发。

更有趣的是,拥有60亿参数的Dolly并没有利用现在最新的模型,而是选择了一个2021年发布的开源模型——GPT-J。

由于Dolly本身是一个模型的「克隆」,所以团队最终决定将其命名为「多利」——有史以来第一个被克隆的动物。

图片

与当前的大型语言模型(如GPT-3)相比,Dolly允许用户使用更小、更专业的模型,「复刻」ChatGPT的能力。

毕竟对于那些细分用户来说,能够利用针对本行业进行过精调的模型,可以大大增加性能和准确性。

尽管Databricks与OpenAI并无直接竞争关系,但它似乎想通过证明构建类似ChatGPT这样的服务并非看起来那么困难,来抢占OpenAI的风头。

尤其是,OpenAI采取了「规模越大越好」的方法来开发语言模型,并对其工作越来越保密。

Databricks除了将Dolly作为开源软件发布外,还强调Dolly只有60亿个参数(在训练过程中微调的语言模型部分),而OpenAI的GPT-3模型有1750亿个参数。(OpenAI并未透露GPT-4的参数数量)。

图片

让老模型,涅槃重生

根据InstructGPT论文中描述的指令跟随能力,对Dolly进行评估后发现,它在很多能力上的表现和ChatGPT十分类似,包括文本生成、头脑风暴和开放式问答。

在这些例子中,值得注意的不是生成文本的质量,而是在一个小型的高质量数据集上,微调一个旧的开源模型所带来的指令跟随能力的巨大改进。

内容生成

比如,写一条Databricks官宣大规模语言模型Dolly发布的推特。

可以看到,原始的60亿参数模型(GPT-J)所生成的内容驴唇不对马嘴,而Dolly则给出了一个完全可用的推文——

不仅内容符合要求,而且还贴心地加上了标签,以及提醒你记得加入发布的链接。

图片

对于这一题,ChatGPT给出的答案也很符合期待,相比于Dolly,ChatGPT给出的推文包含了更多评述性词句,并且标签也更加精准具体,但整体差距不大。

图片

当要写一条出售Nikon D-750相机的广告时,可以看到,GPT-J所生成的内容基本就在胡编乱造,像是在写小说一样杜撰购买和出售相机的剧情……

而Dolly则根据Nikon D-750相机的特点及优势,给出了一则吸引人的相机转卖广告语,但遗憾的是像素参数不对。

图片

ChatGPT在这一题上也是圆满完成任务,广告语中突出该款相机的优势,文末仍然贴心地加上了标签。​

图片

最后一题:给Edgar Allan Poe 写一封书。

对此,古早的GPT-J直接拒绝回答,究其原因竟然是——爱伦·坡已经去世了,你不能给死人写情书。

而Dolly则成功地完成了任务,效果对比起来堪称「涅槃」。

图片

而这种「创造性」问题,显然是ChatGPT的强项,它洋洋洒洒地写了300多个字。

图片

开放问答

在事实性问题的问答测试上,团队选择了下面这个:「向我解释一下核裂变和核聚变之间的区别。」

先不管对错,GPT-J全篇都是在讲太阳如何如何,虽然提到了「聚变」这个词,但完全无视了「裂变」。

而Dolly第一句就直接点题——核裂变和核聚变的区别在于释放能量的方式,随后简单解释了他们的不同。

图片

相比之下,ChatGPT给出的回答明显要更加翔实。

图片

头脑风暴

当让它们头脑风暴,给出应该阅读的五本科幻小说的名单,GPT-J则只是在喃喃自语,像是沉浸在了拖延阅读而产生的愧疚情绪中,完全回避了这个提问。

Dolly则一如既往的表现稳定,按照指令给出了5本科幻小说的书名及其作者。

图片

ChatGPT对于该问题给出了更加丰富的回答,不仅包括书名和作者,还对每一本书的内容、类型作了简要评述和介绍。

图片

你要Close,我就Open

对于很多公司而言,宁愿自己建立一个不那么强的模型,也不愿将数据发送给那些只提供API的大语言模型供应商。

其中一个重要原因便是,这些问题和数据集是公司最敏感和专有的知识产权,直接将其交给第三方显然是不靠谱的。

此外,公司自身可能在模型质量、成本和期望行为方面有不同的权衡,一种可定制化的语言模型更加符合需求。

现在,Dolly的发布给了他们希望——即便是一个「过时」的开源大型语言模型 (LLM),也能通过30分的训练,赋予它神奇的类似ChatGPT的指令跟随能力。

不难想象,大语言模型或许很快就不是AI巨头公司独占的玩法了!

正如公司CEO Ali Ghodsi所说,「我们的信念是,让全世界的每个组织都能利用这些技术。」

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
ChatGPT注册
ChatGPT注册

ChatGPT注册方法:1、访问OpenAI的官方网站,进入注册页面;2、完成注册后收到一份邮件,打开后点击验证账号;3、选择一个适合您需求的订阅计划;4、获得访问ChatGPT的权限即可。

538

2023.09.12

国内免费ChatGPT大全
国内免费ChatGPT大全

ChatGPT是一种基于深度学习技术的自然语言处理模型,由OpenAI开发。它是GPT的一个变体,专门设计用于生成上下文相关的文本回复。ChatGPT被训练成一个聊天机器人,可以与用户进行对话交互。更多关于ChatGPT的文章详情请查看本专题,希望对大家能有所帮助。

585

2023.10.25

手机安装chatgpt的方法
手机安装chatgpt的方法

手机安装chatgpt的方法:1、在ChatGTP官网或手机商店上下载ChatGTP软件;2、打开后在设置界面中,选择语言为中文;3、在对局界面中,选择人机对局并设置中文相谱;4、开始后在聊天窗口中输入指令,即可与软件进行交互。想了解更多chatgpt的相关内容,可以阅读本专题下面的文章。

2863

2024.03.05

chatgpt国内可不可以使用
chatgpt国内可不可以使用

chatgpt在国内可以使用,但不能注册,港澳也不行,用户想要注册的话,可以使用国外的手机号进行注册,注意注册过程中要将网络环境切换成国外ip。想了解更多chatgpt的相关内容,可以阅读本专题下面的文章。

1037

2024.03.05

java入门学习合集
java入门学习合集

本专题整合了java入门学习指南、初学者项目实战、入门到精通等等内容,阅读专题下面的文章了解更多详细学习方法。

2

2026.01.29

java配置环境变量教程合集
java配置环境变量教程合集

本专题整合了java配置环境变量设置、步骤、安装jdk、避免冲突等等相关内容,阅读专题下面的文章了解更多详细操作。

2

2026.01.29

java成品学习网站推荐大全
java成品学习网站推荐大全

本专题整合了java成品网站、在线成品网站源码、源码入口等等相关内容,阅读专题下面的文章了解更多详细推荐内容。

0

2026.01.29

Java字符串处理使用教程合集
Java字符串处理使用教程合集

本专题整合了Java字符串截取、处理、使用、实战等等教程内容,阅读专题下面的文章了解详细操作教程。

0

2026.01.29

Java空对象相关教程合集
Java空对象相关教程合集

本专题整合了Java空对象相关教程,阅读专题下面的文章了解更多详细内容。

3

2026.01.29

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
PHP快速操控Excel之PhpSpreadsheet
PHP快速操控Excel之PhpSpreadsheet

共16课时 | 8万人学习

MySQL权威开发指南(教程)
MySQL权威开发指南(教程)

共16课时 | 15.4万人学习

马士兵JAVA坦克游戏视频教程
马士兵JAVA坦克游戏视频教程

共23课时 | 5万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号