2023年最流行的大型语言模型实例

大型语言模型（LLMs）已经占领了互联网。2023年1月，OpenAI的ChatGPT拥有1亿月活跃用户，创造了有史以来用户群增长最快的记录。对LLM的需求很高，因为有很多用例，例如：

通过对更多的数据进行训练，以及对使其能够理解语言的深度学习神经网络的改进，大型语言模型正在不断改进。

作为一项新技术，大型语言模型仍处于被应用于商业的早期阶段。可能不知道领先的大型语言模型例子的朋友可以阅读这篇文章来了解大型语言模型。

大型语言模型是深度学习神经网络，通过对大量文本的训练，可以理解、处理和产生人类语言。大型语言模型可以归类于自然语言处理（NLP），这是一个旨在理解、解释和生成自然语言的人工智能领域。

在训练过程中，LLM被输入数据（数十亿字）以学习语言中的模式和关系。语言模型的目的是根据前面的词来计算出下一个词的可能性。该模型接受一个提示，并使用它在训练期间学到的概率（参数）来产生一个反应。

如果你是大型语言模型的新手，请查看我们的《大型语言模型： 2023年的完整指南》一文。

像ChatGPT这样的大型语言模型是通过一个叫做监督学习的过程进行训练的。在训练过程中：

查看我们关于大型语言模型训练的文章，了解更多关于这个问题的信息。

我们在下表中介绍了领先的大型语言模型，其参数适合于企业采用。我们提供了一些关于最具影响力的模型的额外信息。

模型	开发商	始于	参数数量	涵盖的语言数量	是否开源	是否企业内部/私有云	研究/论文
GPT-3	OpenAI	2020	175 billion	95种自然语言和12种编程语言	No	No，仅通过Microsoft Azure	https://proceedings.neurips.cc/
BERT	Google	2018	340 million	104种多模态语言	Yes	Yes	https://arxiv.org/abs/1810.04805
BLOOM	BigScience	2022	176 billion	46种自然语言+13种编程语言	Yes	Yes	https://huggingface.co/
NeMo LLM	NVIDIA	2022	530 billion	仅英语	Yes	Yes	https://www.nvidia.com/
Turing NLG	Microsoft	2020	17 billion	仅英语	Yes	No	https://www.microsoft.com/
XLM-RoBERTa	Meta	2020	354 million	100种自然语言	Yes	Yes	https://arxiv.org/abs/1911.02116
XLNet	Zhilin Yang, Zihang Dai, Yiming Yang, Jaime Carbonell, Ruslan Salakhutdinov, Quoc V. Le	2020	340 million	仅英语	Yes	Yes	https://arxiv.org/abs/1906.08237
OPT	Meta	2022	175 billion	仅英语	Yes	Yes	https://arxiv.org/abs/2205.01068
LaMDA	Google	2021	137 billion	仅英语	Yes	No	https://blog.google/technology/ai/lamda/
Classify, Generate, Embed	Cohere	2021	NA	+100 自然语言	Yes	Yes	https://docs.cohere.ai/
Luminous	Aleph Alpha	2022	NA	英语, 德语, 法语, 意大利语和西班牙语	No	Yes	https://www.aleph-alpha.com/luminous
GLM-130B	Tsinghua University	2022	130 billion	英语 & 中文	Yes	Yes	https://keg.cs.tsinghua.edu.cn/
CPM-2	Beijing Academy of Artificial Intelligence &Tsinghua University	2021	11 billion	英语 & 中文	Yes	Yes	https://arxiv.org/pdf/2106.10715.pdf
ERNIE 3.0	Baidu	2021	10 billion	英语 & 中文	Yes	Yes	https://arxiv.org/abs/2107.02137

注意：参数数量和支持的语言等功能会根据语言模型的版本而改变。

来自Transformers的Bidirectional Encoder Representations，简称BERT，是谷歌在2018年发布的一个大型语言模型。BERT利用了谷歌在2017年推出的Transformer神经网络架构。

在引入BERT之前，NLP最常见的应用是递归神经网络（RNNs），它将输入文本看成是从左到右或从左到右和从右到左的组合。与旧的单向模型不同，BERT是双向训练的，这使它能够对语言的背景和流程有更深的认识。

GPT-3是Open AI最新的生成式预训练（GPT）模型，于2020年发布。GPT-3也是基于Transformer架构，它以无监督的方式进行预训练，通过零次、一次或几次的学习技术进行微调，使其适用于许多用例。

BLOOM是由BigScience发起的，是最大的开源模型中的一个多语言模型。BLOOM也有一个基于Transformer的架构，这是现代语言模型中最流行的选择。