周三(4月26),Databricks发布了Dolly 2.0,据说这是第一个开源的、遵循指令的大型语言模型(LLM),用于商业用途,在人类生成的数据集上进行了微调。它可以作为自制ChatGPT竞争对手的一个引人注目的起点。
Databricks是一家美国企业软件公司,由Apache Spark的创建者于2013年创立。他们提供了一个基于网络的平台,用于大数据和机器学习的Spark工作。根据Dolly发布的博文,Databricks希望允许企业创建和定制LLM,”无需为API访问付费或与第三方共享数据”。
Dolly 2.0是其新的120亿个参数的模型,基于EleutherAI的pythia模型系列,并完全根据Databricks员工众包的训练数据(称为 “databricks-dolly-15k”)进行微调。这种校准使它的能力更符合OpenAI的ChatGPT,它在回答问题和作为聊天机器人参与对话方面比没有经过微调的原始LLM更好。
3月发布的Dolly 1.0在商业使用方面面临着限制,原因是训练数据包含ChatGPT的输出(感谢Alpaca),并受制于OpenAI的服务条款。为了解决这个问题,Databricks的团队试图创建一个新的数据集,允许商业使用。
为此,Databricks在2023年3月至4月期间,从其5000多名员工那里众包了13000个遵循指令的行为演示。为了激励参与,他们设立了一个竞赛,并概述了数据生成的七个具体任务,包括开放式问答、封闭式问答、从维基百科中提取和总结信息、头脑风暴、分类和创意写作。
由此产生的数据集,以及Dolly的模型权重和训练代码,已经在知识共享协议下被完全开源发布,使任何人都可以为任何目的使用、修改或扩展数据集,包括商业应用。
相比之下,OpenAI的ChatGPT是一个专有模式,要求用户为API访问付费并遵守特定的服务条款,可能会限制企业和组织的灵活性和定制选项。Meta的LLaMA是一个部分开源的模型(有限制性的权重),最近在其权重在BitTorrent上泄露后催生了一波衍生品,不允许商业使用。
在Mastodon上,人工智能研究员Simon Willison称Dolly 2.0是 “a really big deal“。威里森经常用开源的语言模型进行实验,包括Dolly。”Dolly 2.0最令人激动的事情之一是微调指令集,它是由5000名Databricks员工手工打造的,并在CC许可下发布,”Willison在Mastodon的帖子中写道。
如果对Meta的部分开放的LaMA模型的热烈反应是任何迹象的话,Dolly 2.0有可能引发新一轮开源语言模型的浪潮,这些模型不会受到专利限制或商业使用限制的阻碍。虽然关于Dolly的实际性能还没有定论,但进一步的改进可能允许在本地消费级机器上运行相当强大的LLMs。
“即使Dolly 2不是很好,我预计我们很快就会看到一堆使用该训练数据的新项目,”Willison告诉Ars。”其中一些可能会产生一些真正有用的东西。”
目前,Dolly的权重可以在Hugging Face获得,而databricks-dolly-15k数据集可以在GitHub上找到。