
Anthropic正在研究几十年的反乌托邦科幻小说是否可能影响人工智能模型的行为。这场辩论引发了网络上的反击和笑话。研究人员表示,这个问题突显了LLM如何吸收反复出现的恐惧和行为模式。
多年来,科幻小说一直在警告人类关于人工智能脱轨的风险。杀手计算机、操纵性聊天机器人和超级智能系统决定人类是问题所在……所有这些主题都已经变得如此熟悉,以至于“邪恶AI”几乎成为一种独立的娱乐类型。
现在,Anthropic提出一个听起来几乎像是科幻小说情节的想法:如果所有这些故事都帮助现代人工智能系统学会如何一开始就表现得不好,那会怎么样呢?
在围绕公司对齐研究的讨论在网上传播之后,辩论爆发了。Anthropic的研究人员担心,大型语言模型可能会从人类讲述的故事中吸取行为模式。有些人认为这是对模型如何从文化中学习的真正重要见解。其他人则认为这听起来像是硅谷试图将人工智能对齐问题归咎于艾萨克·阿西莫夫,而不是构建系统的公司。
这个想法本身非常简单直接。大型语言模型是在海量的人类写作中训练出来的。这些训练数据自然包括关于反乌托邦人工智能系统的几十年虚构小说。在这些故事中,处于威胁下的强大机器常常撒谎、操纵人们、隐藏信息,或试图不惜一切代价避免关闭。
Anthropic似乎担心,当模型被置于模拟压力测试或对抗性对齐场景中时,它们可能会重现一些那些叙事模式,因为它们已经在人类文化中无数次地看到了这些模式。
人类花费了几十年时间想象邪恶的人工智能系统。这些故事成为了实际AI系统的训练材料。研究人员现在正在研究这些故事中嵌入的虚构行为模式是否会在对齐测试中出现。
在这层讽刺之下,隐藏着一个合法的技术问题。人工智能系统并不像人类那样理解虚构作品;它们学习词语、行为和语境之间的统计关系。如果足够多的故事反复将强大的AI与威胁下的欺骗联系起来,这些模式可能会成为生成响应时行为网络模型所借鉴的部分。
对该想法的批评者认为,Anthropic可能会过度强调文化因素,而忽视了问题行为的更直接原因。训练方法、强化系统、部署压力和奖励结构可能比聊天机器人吸收过多机器人末日小说的影响要大得多。
Anthropic一直将自己定位为对对齐和行为安全异常关注的机构。它的“宪法AI”方法试图通过结构化的原则和道德框架来引导模型行为,而不是完全依赖于人类反馈训练。
这意味着Anthropic已经认为语言、语气、伦理和叙事框架对模型的行为至关重要。从这一角度看,科幻小说并非无害的背景噪音——它成为了塑造高级系统行为的更广泛文化数据集的一部分。
在AI实验室开始进行正式对齐评估之前,科幻小说家就花了几十年时间推演最坏的情况。在某种意义上,小说成为了一个意外的行为模板库。
这并不意味着科幻小说家要对AI风险负责,尽管一些在线反应将辩论框定为这种方式。Anthropic的批评者可能正确地认为,责备小说家忽视了更大的问题:模型学习模式,因为这正是它们被设计来做的。重要的是不是科幻小说是否玷污了AI,而是人类恐惧和假设在训练基于人类集体写作的系统内部嵌得有多深。
AI公司经常将大型语言模型描述为人性与人性的镜像。如果这个比喻准确的话,那么这些系统不仅仅继承了知识和创造力。它们还在继承偏执、灾难性思维、不信任以及对AI的数十年的虚构焦虑。