新工具帮助艺术家挫败人工智能

Kudurru 是 Have I Been Trained? 作者开发的新工具。可以帮助艺术家阻止网络爬虫者,甚至可以通过发回错误的图片来 “毒害” 爬虫。

当人工智能图像生成器刚刚问世时,它们就像变魔术一样。从一个角度看,在几分钟内生成详细图像是一个技术奇迹。但从另一个角度看,这似乎只是一种模仿。

这些模型是在数十亿幅图像上训练出来的,没有人向背后的人类征得许可。”欧洲人工智能监管协会荷兰顾问、插画家伊娃-图伦特(Eva Toorenent)说:”它们吸走了数百万艺术家的创作灵感。”这绝对令人恐怖。”

随着人工智能公司估值的飙升,为其产品提供基石的人们却得不到任何补偿。许多艺术家强烈反对人工智能图像生成器使用他们的作品。”艺术家兼作家莫莉-克拉巴普尔(Molly Crabapple)说:”看到公司抄袭我们的风格,然后试图用我们自己作品的私生子版本来取代我们,这简直令人作呕。

在过去的一年里,随着图像生成人工智能工具的日益普及,插画家、摄影师和其他视觉艺术家一直在努力确定他们能做些什么来对自己作品的使用方式拥有发言权。有些人试图提起诉讼,有些人则要求监管机构介入。他们无力改变过去对发电机的培训方式。不过,从今天开始,初创公司 Spawning 将推出一款新工具,帮助那些希望阻止人工智能对其作品进行训练的艺术家。该工具名为 Kudurru,是一个网站网络,可以识别正在发生的网络爬虫行为。(这个名字来源于美索不达米亚人对石头的称呼,表示边界和所有权)。

了解图像生成器的训练方法有助于准确理解 Kudurru 的工作原理。大多数图像生成器都是通过 “搜索” 互联网来找到训练数据的。爬虫技术人员使用软件从 DeviantArt 等平台和 Getty Images 等专业图库以及艺术家个人网站等网络上大量收集数据。数据集 LAION-5B 是最流行、最常用的路线图之一,它列出了数十亿张图片的 URL。当一家人工智能公司使用 LAION-5B 这样的数据集来抓取图片时,它必须从 URL 链接下载这些图片。这正是 Kudurru 的优势所在。

根据 Spawning 联合创始人乔丹-迈耶(Jordan Meyer)的说法,在内部测试期间,Kudurru 能够短暂阻止大量的爬取活动。梅耶尔说:”在七月份的大约两个小时里,我们阻止了所有正在下载LAION-5B数据集的人。”

为了识别爬虫者,Spawning 运营了一个类似于 “蜜罐” 的 “防御网络”,由 1000 多个网站组成。这些网站会收集试图爬取图片的 IP 地址的数据;”产卵” 通常可以识别出进行爬虫的团体和总体爬虫活动最多的地区。

Spawning 联合创始人帕特里克-霍普纳(Patrick Hoepner)说:”我们正在开发一个黑名单。Spawning 也是 Have I Been Trained? 网站的幕后公司,该网站可以让创作者看到人工智能是否对他们的作品进行了刮擦,Spawning 会根据其跟踪的 IP 地址的行为实时更新黑名单。”

Kudurru 为艺术家们提供了两种阻止黑客攻击的选择。首先,他们可以直接屏蔽黑名单上的 IP 地址。其次,为了更进一步,他们还可以选择破坏或 “毒害” 爬虫者的努力,发送回与请求不同的图片。尽管 Spawning 有一些建议,但用户可以选择发回什么样的图片。梅耶尔说:”可能只是一次又一次地竖中指。”

这种 “毒害” 可能会产生累积效应,破坏生成器对提示的理解;例如,如果我制作了一个个人摄影网站,并使用 Kudurru 发送回中指,生成器可能会开始将 “Kate Knibbs 摄影风格” 的提示与猥亵手势联系起来。

Spawning 认为,它的工具可以有效地阻碍人工智能图像生成器目前的训练方式。随着越来越多的人使用 Kudurru,它的规模和功能也会随之增加。

Kudurru 的测试版范围有限,目前只是一个 WordPress 插件,不过 Spawning 计划推出更多插件,并整合视频和音频。(它希望最终能引入文本,但要防止文本搜索要难得多)。

虽然KUDURRU为艺术家们提供了一种抵制人工智能训练的新方法,但它并不是第一款或唯一一款旨在阻止不受欢迎的网络爬虫的工具。今年早些时候,芝加哥大学(University of Chicago)的一个团队发布了另一种试图迷惑爬虫者的工具 Glaze。Glaze 在图片上添加了所谓的 “隐身衣”,实质上是一种隐形水印,旨在挫败刮擦企图。

与此同时,像 DataDome 这样的僵尸保护公司多年来一直在提供阻止爬虫的服务,最近随着生成式人工智能的兴起,它们的服务也发生了巨大的变化。首席执行官本杰明-法布尔(Benjamin Fabre)告诉《WIRED》,他发现寻求保护以抵御人工智能相关刮擦的客户激增。”他说:”我们有 70% 的客户主动联系我们,要求确保 DataDome 能够阻止 ChatGPT 和其他大型语言模型。

虽然像 DataDome 这样的公司已经发展得很成熟,但它们主要面向大型企业,并收取相应的费用;个人通常无法使用它们。因此,Kudurru 的出现很有希望,因为它提供的是面向普通人的免费工具。

尽管如此,Kudurru 对于那些希望阻止人工智能刮擦的艺术家来说,还远不是一个广泛或永久的解决方案;甚至它的创建者也认为,在人们等待有意义的监管或立法行动来管理人工智能的训练方式时,Kudurru 只是一个权宜之计。大多数艺术家倡导者认为,这些公司不会主动停止搜索训练数据。

版权活动家尼尔-特克维茨(Neil Turkewitz)认为这是人工智能生成器的 “减速带”,而不是全行业的解决方案。”我认为它们很棒。它们应该被开发出来,人们应该使用它们,”Turkewitz 说。”我们绝对不能把这些技术措施视为解决方案。

“我赞赏开发工具帮助艺术家的尝试,”Crabapple 说。”但它们最终还是把负担推给了我们,这不是我们应该做的。我们不应该玩 “打地鼠 “游戏,以防止我们的作品被价值数十亿美元的公司盗用和复制。唯一的解决办法就是立法”。

要对生成器的训练方式进行更大规模的、永久性的改变,可能需要政府出面;大型生成式人工智能公司不太可能主动停止网络爬虫。一些公司正试图通过创建退出功能来改善批评者的意见,即不希望自己的作品被使用的人可以要求从未来的训练集中删除。这些措施充其量被许多艺术家视为半成品,他们希望看到一个只有在自己选择参与的情况下才进行培训的世界。

更糟糕的是,各家公司开始逐一制定自己的 “退出协议”,而不是采用一个统一的系统,这使得艺术家们从每个生成器中撤回自己的作品变得非常耗时。(Spawning 此前曾为《我被训练过吗》开发过一个早期退出工具,但 Meyer 认为这种各自为政的做法 “令人失望”)。

欧盟在制定人工智能训练的艺术许可法律框架方面走得最远。”托伦特说:”进展非常顺利。她乐观地认为,《人工智能法案》可能会成为人工智能训练自由化终结的开端。当然,地球上的其他地方也必须跟上–《人工智能法案》将帮助艺术家们执行选择退出的权利,而不是将模式转变为选择接受。换句话说,这个世界距离 “选择加入 “培训结构的梦想还有很长很长的路要走。与此同时,还有库德鲁。

微海报