大型语言模型(LLMs)已经占领了互联网。2023年1月,OpenAI的ChatGPT拥有1亿月活跃用户,创造了有史以来用户群增长最快的记录。对LLM的需求很高,因为有很多用例,例如:
通过对更多的数据进行训练,以及对使其能够理解语言的深度学习神经网络的改进,大型语言模型正在不断改进。
作为一项新技术,大型语言模型仍处于被应用于商业的早期阶段。可能不知道领先的大型语言模型例子的朋友可以阅读这篇文章来了解大型语言模型。
什么是大型语言模型,它们是如何工作的?
大型语言模型是深度学习神经网络,通过对大量文本的训练,可以理解、处理和产生人类语言。大型语言模型可以归类于自然语言处理(NLP),这是一个旨在理解、解释和生成自然语言的人工智能领域。
在训练过程中,LLM被输入数据(数十亿字)以学习语言中的模式和关系。语言模型的目的是根据前面的词来计算出下一个词的可能性。该模型接受一个提示,并使用它在训练期间学到的概率(参数)来产生一个反应。
如果你是大型语言模型的新手,请查看我们的《大型语言模型: 2023年的完整指南》一文。
大型语言模型是如何训练的?
像ChatGPT这样的大型语言模型是通过一个叫做监督学习的过程进行训练的。在训练过程中:
- 首先,向模型提供一大组文本输入及其相应的输出,以预测新输入的输出。
- 该模型使用优化算法来调整其参数,使其预测和实际输出之间的差异最小。
- 然后,训练数据被分批交给模型。
- 该模型对每个批次进行预测,并根据它看到的误差改变其参数。
- 这个过程要重复几次,让模型逐渐学习数据中的关系和模式。
查看我们关于大型语言模型训练的文章,了解更多关于这个问题的信息。
大型语言模型实例
我们在下表中介绍了领先的大型语言模型,其参数适合于企业采用。我们提供了一些关于最具影响力的模型的额外信息。
模型 | 开发商 | 始于 | 参数数量 | 涵盖的语言数量 | 是否开源 | 是否企业内部/私有云 | 研究/论文 |
---|---|---|---|---|---|---|---|
GPT-3 | OpenAI | 2020 | 175 billion | 95种自然语言和12种编程语言 | No | No,仅通过Microsoft Azure | https://proceedings.neurips.cc/ |
BERT | 2018 | 340 million | 104种多模态语言 | Yes | Yes | https://arxiv.org/abs/1810.04805 | |
BLOOM | BigScience | 2022 | 176 billion | 46种自然语言+13种编程语言 | Yes | Yes | https://huggingface.co/ |
NeMo LLM | NVIDIA | 2022 | 530 billion | 仅英语 | Yes | Yes | https://www.nvidia.com/ |
Turing NLG | Microsoft | 2020 | 17 billion | 仅英语 | Yes | No | https://www.microsoft.com/ |
XLM-RoBERTa | Meta | 2020 | 354 million | 100种自然语言 | Yes | Yes | https://arxiv.org/abs/1911.02116 |
XLNet | Zhilin Yang, Zihang Dai, Yiming Yang, Jaime Carbonell, Ruslan Salakhutdinov, Quoc V. Le | 2020 | 340 million | 仅英语 | Yes | Yes | https://arxiv.org/abs/1906.08237 |
OPT | Meta | 2022 | 175 billion | 仅英语 | Yes | Yes | https://arxiv.org/abs/2205.01068 |
LaMDA | 2021 | 137 billion | 仅英语 | Yes | No | https://blog.google/technology/ai/lamda/ | |
Classify, Generate, Embed | Cohere | 2021 | NA | +100 自然语言 | Yes | Yes | https://docs.cohere.ai/ |
Luminous | Aleph Alpha | 2022 | NA | 英语, 德语, 法语, 意大利语和 西班牙语 | No | Yes | https://www.aleph-alpha.com/luminous |
GLM-130B | Tsinghua University | 2022 | 130 billion | 英语 & 中文 | Yes | Yes | https://keg.cs.tsinghua.edu.cn/ |
CPM-2 | Beijing Academy of Artificial Intelligence &Tsinghua University | 2021 | 11 billion | 英语 & 中文 | Yes | Yes | https://arxiv.org/pdf/2106.10715.pdf |
ERNIE 3.0 | Baidu | 2021 | 10 billion | 英语 & 中文 | Yes | Yes | https://arxiv.org/abs/2107.02137 |
注意:参数数量和支持的语言等功能会根据语言模型的版本而改变。
1- BERT
来自Transformers的Bidirectional Encoder Representations,简称BERT,是谷歌在2018年发布的一个大型语言模型。BERT利用了谷歌在2017年推出的Transformer神经网络架构。
在引入BERT之前,NLP最常见的应用是递归神经网络(RNNs),它将输入文本看成是从左到右或从左到右和从右到左的组合。与旧的单向模型不同,BERT是双向训练的,这使它能够对语言的背景和流程有更深的认识。
2- GPT-3
GPT-3是Open AI最新的生成式预训练(GPT)模型,于2020年发布。GPT-3也是基于Transformer架构,它以无监督的方式进行预训练,通过零次、一次或几次的学习技术进行微调,使其适用于许多用例。
3- BLOOM
BLOOM是由BigScience发起的,是最大的开源模型中的一个多语言模型。BLOOM也有一个基于Transformer的架构,这是现代语言模型中最流行的选择。