人工智能越来越强大,但也越来越神秘

根据斯坦福大学的一份新报告,ChatGPT 和其他流行且强大的人工智能系统背后的公司对其训练数据和工作方式不够透明。

AI-Black-Box-FF-Business-1472132113

今年 3 月,OPENAI 发布了能力惊人的人工智能语言模型 GPT-4 的详细信息,该模型为 ChatGPT 提供了动力。他们还遗漏了一些重要细节,比如关于该模型的实际构建过程或工作原理的实质性内容。

这当然不是偶然的疏忽。OpenAI 和其他大公司都热衷于为其最珍贵的算法的工作原理蒙上一层神秘的面纱,部分原因是担心技术可能会被滥用,但也有部分原因是担心会给竞争对手留下可乘之机。

斯坦福大学研究人员本周发布的一份研究报告显示,GPT-4 和其他尖端人工智能系统的保密程度有多深–而且可能很危险。与我交谈过的一些人工智能研究人员说,我们正处在追求人工智能的方式发生根本性转变的时期。他们担心,这种转变会降低该领域取得科学进步的可能性,减少问责制,降低可靠性和安全性。

斯坦福团队研究了 10 种不同的人工智能系统,其中大部分是大型语言模型,如 ChatGPT 和其他聊天机器人背后的模型。其中包括广泛使用的商业模型,如 OpenAI 的 GPT-4、谷歌类似的 PaLM 2 和亚马逊的 Titan Text。报告还调查了初创公司提供的模型,包括 AI21 Labs 的 Jurassic-2、Anthropic 的 Claude 2、Cohere 的 Command 和聊天机器人制造商 Inflection 的 Inflection-1

他们还研究了 “开源 “人工智能模型,包括图像生成模型 Stable Diffusion 2 和 Meta 于今年 7 月发布的 Llama 2,这些模型可以免费下载,而不是只能在云端访问。(正如《WIRED》此前报道的那样,这些模型通常并不像它们看起来那么开放)。

斯坦福大学的研究团队根据 13 项不同的标准对这些模型的开放性进行了评分,其中包括开发者对用于训练模型的数据的透明程度–例如,披露数据的收集和注释方式,以及是否包含受版权保护的材料。这项研究还调查了用于训练和运行模型的硬件、采用的软件框架以及项目能耗的披露情况。

研究人员发现,在所有这些指标中,没有一个模型的透明度超过 54%。总体而言,亚马逊的 “泰坦文本”(Titan Text)被评为最不透明的模型,而 Meta 的 “Llama 2” 被评为最开放的模型。不过,即使是像 Llama 2 这样的 “开源” 模型也被认为相当不透明,因为 Meta 没有披露用于训练的数据、数据是如何收集和整理的,以及谁做了这项工作。

亚马逊发言人内森-施特劳斯(Nathan Strauss)表示,该公司正在密切审查该索引。他说:”Titan Text 目前仍处于私人预览阶段,在它准备好普遍可用之前,衡量基础模型的透明度还为时过早。” Meta 拒绝对斯坦福大学的报告发表评论,OpenAI 也没有回应评论请求。

参与这项研究的斯坦福大学博士生 Rishi Bommasani 说,这反映了一个事实:人工智能正变得越来越不透明,即使它的影响力越来越大。这与上一次人工智能的大发展形成了巨大反差,当时,开放有助于推动包括语音和图像识别在内的能力取得巨大进步。”在 2010 年代末,公司的研究更加透明,发表的论文也更多,”Bommasani 说。”这是我们在深度学习方面取得成功的原因。”

斯坦福大学的报告还表明,出于竞争原因,模型并不需要如此保密。斯坦福大学的政策研究员凯文-克里曼(Kevin Klyman)说,一系列领先模型在不同的透明度衡量标准上得分相对较高,这一事实表明,所有模型都可以变得更加开放,而不会输给竞争对手。

在人工智能专家试图弄清最近蓬勃发展的某些人工智能方法将何去何从之际,一些人表示,保密有可能使该领域不再是一门科学学科,而是一门以利润为导向的学科。

艾伦人工智能研究所(Allen Institute for AI,简称 AI2)的研究科学家杰西-道奇(Jesse Dodge)说:”现在是人工智能历史上的关键时刻。”如今,构建生成式人工智能系统的最有影响力的参与者越来越封闭,未能分享其数据和流程的关键细节。”

AI2 正试图开发一种更加透明的人工智能语言模型,名为 OLMo。该模型正在使用从网络、学术出版物、代码、书籍和百科全书中收集的数据进行训练。该数据集名为 Dolma,已在 AI2 的 ImpACT 许可下发布。当OLMo准备就绪时,AI2计划发布工作中的人工智能系统及其背后的代码,允许其他人在此项目的基础上进行开发。

道奇说,扩大对强大人工智能模型背后数据的访问尤其重要。如果不能直接访问,通常就不可能知道一个模型为什么或如何做到这一点。推动科学发展需要可重复性,如果不开放这些创建模型的重要基石,我们将继续处于’封闭’、停滞和专有的状态。”

鉴于人工智能模型的应用范围如此之广,而且一些专家警告说这些模型可能会非常危险,因此开放一点可能会有很大的帮助。

微海报