Stability AI发布了一个新的开源AI语言模型系列,名为StableLM。Stability公司希望重复其在2022年推出的Stable Diffusion开源图像合成模型的催化作用。经过完善,StableLM可以用来构建开源ChatGPT平替。
据Stability公司称,StableLM目前在GitHub上以alpha形式提供30亿和70亿参数的模型,随后将有150亿和650亿参数的模型。该公司在知识共享BY-SA-4.0许可下发布了这些模型,该许可要求改编必须归功于原创作者并共享相同的许可。
Stability AI Ltd.是一家位于伦敦的公司,它将自己定位为OpenAI的一个开源对手,尽管OpenAI有一个 “开放 “的名字,但它很少发布开源模型,并将其神经网络权重–定义人工智能模型核心功能的大量数字–保留为专有。
“语言模型将构成我们数字经济的支柱,我们希望每个人都能在其设计中拥有发言权,”Stability公司在一篇介绍博文中写道。”像StableLM这样的模型表明我们对人工智能技术的承诺是透明的、可访问的和支持性的。”
与GPT–为最强大的ChatGPT版本提供动力的大型语言模型(LLM)一样,StableLM通过预测一个序列中的下一个标记(单词片段)来生成文本。该序列以人类以 “提示 “形式提供的信息开始。因此,StableLM可以编写类似人类的文本,并编写程序。
Stability AI提供的7B参数StableLM语言模型的微调版本的对话截图示例:
像其他最近的 “小 “语言模型,如Meta的LLaMA、斯坦福的Alpaca、Cerebras-GPT和Dolly 2.0,StableLM声称要达到与OpenAI的基准GPT-3模型类似的性能,而使用的参数却少得多–StableLM是70亿,而GPT-3是1750亿。
参数是语言模型用来从训练数据中学习的变量。参数越少,语言模型就越小,效率就越高,这可以使它更容易在智能手机和笔记本电脑等本地设备上运行。然而,用较少的参数实现高性能需要精心设计,这是人工智能领域的一个重大挑战。
“我们的StableLM模型可以生成文本和代码,并将为一系列的下游应用提供动力,”Stability说。”它们展示了小而有效的模型如何通过适当的训练提供高性能”。
根据Stability AI的说法,StableLM已经在 “一个新的实验数据集 “上进行了训练,该数据集基于一个名为The Pile的开源数据集,但比它大三倍。Stability公司声称,这个数据集的 “丰富性”–它承诺稍后公布其细节–说明了该模型在对话和编码任务的较小参数规模下 “令人惊讶的高绩效”。
在我们对基于Alpaca方法为对话建立的StableLM的7B模型的微调版本的非正式实验中,我们发现它似乎比Meta的原始7B参数LLaMA模型表现得更好(就你在提示下所期望的输出而言),但没有达到GPT-3的水平。更大参数版本的StableLM可能会被证明更加灵活和有能力。
去年8月,Stability公司资助并宣传了Stable Diffusion的开源发布,该模型由慕尼黑路德维希-马克西米利安大学的CompVis小组的研究人员开发。
作为一个早期的开源latent diffusion模型,它可以从提示中生成图像,Stable Diffusion启动了一个图像合成技术的快速发展时代。它也在艺术家和企业实体中引起了强烈的反响,其中一些人已经起诉了Stability AI。Stability公司向语言模型的进军可能会激发类似的结果。
用户可以测试70亿个参数的StableLM基础模型Hugging Face和Replicate上的微调模型。此外,Hugging Face承载了一个对话调整版的StableLM,其对话格式与ChatGPT相似。
Stability公司表示,它将 “在不久的将来” 发布一份关于StableLM的完整技术报告。