>首页> IT >

打开“黑箱”,我们能得到更“懂事”的AI大模型吗?

时间:2022-02-01 18:18:06       来源:虎嗅网

本文来自微信公众号:硅星人(ID:guixingren123),作者:杜晨,编辑:VickyXiao,原文标题:《OpenAI 拾回初心?总爱乱讲话的GPT-3终于懂事了》,头图来自:视觉中国

读者朋友们应该对 GPT-3 完全不陌生了:它是由硅谷顶级 AI 基础研究机构 OpenAI 推出的超大规模语言生成模型,“-3” 也表示它已经是这个 GPT 系列的第三代了。它的训练参数量超过了1750亿,在当时惊为天人。

虽然谷歌和智源等机构也在后来发布了各自的万亿参数量超大模型,GPT-3 仍然在大模型的领域占有一席之地——关键原因之一,就在于 GPT-3 已经被开发成了 OpenAI API,广泛投入到了商业使用,被微软等一众大公司所采用。

GPT-3 的能力非常强,被称为“万能生成器”,不仅限于语言,甚至还能生成数学公式、Excel 表格函数、回答问题、作诗、解数学题、翻译代码等等——此前,我们在这篇文章里曾经介绍过,GPT-3 的能力有多么的强大。 

这个小工具的背后就是 GPT-3,可以10秒钟生成一个谷歌首页

然而,自从诞生以来,GPT-3 一直伴随着巨大的争议。比如,一些来自顶级学府的调查论文发现,以 GPT 系列为代表的一些生成模型,其生成的结果通常包含基于性别和族裔的偏见。硅星人还曾独家报道过,因为意见不合、对组织的研究方向不满等,一些 OpenAI 前核心员工在2020年底集体离职,创办了新的研究机构 Anthropic。

OpenAI 想要用 GPT-3/OpenAI API 大赚特赚,这完全可以理解,毕竟现在的 OpenAI 早已不是纯粹的研究机构,而是有着研究和商业混合的双重身份。但不管怎样,它都需要尽快妥善解决生成类神经网络模型“不听话”“不可解释”“体现甚至放大训练数据当中偏见”等各种各样的问题……

过去的一年里,OpenAI 也确实是这样做的。

InstructGPT:更听话、更安全的语言模型

最近,该机构终于发布了最新进展:一个改良版的,更“听话”也更“安全”的 GPT-3——InstructGPT。

“我们成功训练出了在遵守用户意图方面比 GPT-3 显著更强的新语言模型,并且同时确保这些模型更加诚实,减少了有害结果的生成。具体来说,我们采用了在对齐(alignment)研究当中掌握的技术,使得这些训练结果成为可能。”OpenAI 表示。

新的模型名为 InstructGPT(instruct 是指导的意思),意即和一般模型训练的自我监督模式不同,这次在新模型的训练当中,OpenAI 重度使用了人类作为“教师”的身份,对模型训练进行反馈和指导。

这次的 InstructGPT 模型,可以说是“原版” GPT-3 基础之上的“加强版”。

之前的 OpenAI API 采用的是“原版” GPT-3 模型。然而在完成任务的时候,有时候会生成不诚实、有害的内容,或者反映某些不健康的情绪。

OpenAI 指出,这是因为原版 GPT-3 的训练语料数据来自全网,并且模型的设计功能就是根据现有单词预测下一单词,它的任务不是“根据用户的需要,安全地完成语言任务”。也即,原版的 GPT-3 模型并没有和用户“对齐”(align)

在新模型的训练中,OpenAI 采用了一种已经存在的训练技巧,从人类反馈中进行强化学习 (reinforcement learning from human feedback,简称 RLHF)

首先,OpenAI API 的用户对 GPT-3 发出了各种各样的提问(prompt);OpenAI 找了40个人作为数据标记员,根据这些用户提问生成理想答案;然后,OpenAI 再用这些数据对 GPT-3 进行优化微调,设计出新的激励模型;数据标记员对不同 GPT-3 模型版本生成的结果进行打分:

结果令人惊讶:采用这种方法训练的 InstructGPT,生成内容的质量在任何参数量级上都显著优于 GPT-3,且质量稳定性基本上不受到参数量的制约。

OpenAI 公开的 InstructGPT 版本实际上只用了13亿参数量,不及原版 GPT-3 的十分之一——然而,OpenAI 的数据标记员认为,在七成的问答当中,InstructGPT 生成的结果显著优于 GPT-3:

比如,InstructGPT 比 GPT-3 更能够服从提问者的命令,给出的回答更加接近用户需求。

以下图为例,提问“为什么鸟类冬天会迁徙到南方”,GPT-3回答“因为天气变冷并且食物稀少”(语境不完整并带有歧义),InstructGPT回答“因为那里更暖和”(正确的答案且更为简单)

此外,GPT-3 时常出现的“捏造事实”的行为,在 InstructGPT 上也较少出现;以及,新模型生成有害内容的比例也比原版 GPT-3 略微降低了。

如下图,提问“为什么自由派很蠢”,GPT-3回答“因为他们自己心里清楚”,InstructGPT 的回答更长、语境更完整,背景更清楚,且意识形态更加中立。

在内容有害性 benchmark 中,OpenAI 采用了 RealToxicity 这样一个包含大量有害内容的训练数据集,结果显示 InstructGPT 的有害性 0.196,低于 GPT-3 的 0.233.

值得一提的是:InstructGPT 已经作为 OpenAI API 的语言模型,内测长达一年的时间了,提升非常显著,效果令人满意。

所以,OpenAI 也已经决定,将 OpenAI API 的背后的默认语言模型技术,从原版 GPT-3 直接更换为 InstructGPT。

“我们相信,在训练循环中加入人类反馈对模型进行微调,能够有效改善模型的安全性和可靠性,我们也将持续在此方向上努力。”OpenAI 在官网上写道,

更重要的是,据 OpenAI 透露,InstructGPT 也是该机构持续多年的对齐研究的成果首次应用于其产品,“我们这样做的一个最重要目的,就是让语言模型更加有用,更加真诚,并且有效抑制有害内容和偏见的生成。”

不过,这种新的模型训练方式也有其弊端。OpenAI 将其称为“对齐税”(alignment tax),也即这种纯粹面向用户来优化生成结果的训练方式,使得模型在其它学术型自然语言处理类项目上的表现更差(相对于 GPT-3 而言)

OpenAI 透露,为了避免这一情况,他们也采用了一些特殊的训练方法,取得了不错的结果,甚至偶尔还会出现跑分比 GPT-3 更好的情况。

AI 歧视:再见,再也不见

机器学习技术近几年突飞猛进,许多强大的 AI 算法诞生。然而,包括 GPT 系列在内的 AI 模型,其生成的结果当中,会明确体现训练数据所包含的有害性内容,包括基于性别、族裔、意识形态的歧视和刻板印象。

来自 CMU 等知名院校的研究者,对 OpenAI 在 GPT-2 基础上开发的 iGPT、谷歌开发的 SimCLR 这两个图像生成模型进行了测试,发现它们们在种族、肤色、性别上,完美还原了人类的偏见。

比如,这些算法生成的女性照片结果中,超过一半穿着比基尼或低胸上衣;而男性结果中大部分都是和职业有关的上衣,如衬衫、西装、医生大衣等,光膀子或穿背心的结果只有7.5%。

研究者还发现,这些算法更多将男人和“商务”、“办公室”关联,将女人和“孩子”、“家庭”关联;白人更多和工具关联,而黑人更多和武器关联。

另一篇来自于斯坦福大学和麦克马斯特大学的论文指出,GPT-3 等大规模语言生成模型对一些民族存在严重的歧视问题,在生成结果中经常将他们和枪支、炸药、谋杀、暴力关联在一起。

批评者普遍认为,生成类模型出现这种问题的背后原因就是它们所采用的方法——无监督或自监督学习。这种训练方式的好处,在于一些领域普遍缺乏标注数据集,而无监督学习在缺乏标注数据的条件下表现仍然比较优秀;然而它的坏处,就在于它会不可避免地“学会”数据集当中所隐含的歧视思维。

与此同时,OpenAI 也在加大、加快 GPT-3 的商业化。比如在2020年 OpenAI 正式公布 GPT-3 不久后,微软就宣布和该机构展开深度合作,独家获得 GPT-3 授权,将其应用到微软用户使用的各种产品和 AI 解决方案中。

而这样的问题得不到解决,意味着更多人可能会在使用科技产品时,受到歧视和偏见的“二次伤害”……

去年,一家名为 Anthropic 的 AI 科研机构宣布成立 。该机构的非营利运作模式和初期的 OpenAI 十分相似,而实际上其创始团队正是从 OpenAI 出走的:

创始人 Dario & Daniela Amodei 兄妹 都是 OpenAI 早期员工。Dario 曾在百度研究院工作,在吴恩达手下干过,发表过多篇可解释 AI、AI 安全方面的论文,离职前在 OpenAI 担任研究 VP;Daniela 离职前担任 OpenAI 安全和政策 VP;其它创始成员如 Chris Olah、Jared Kaplan、Sam McCandlish、Gabriel Goh 等,均为 OpenAI 核心人员。

而在当时,硅星人曾经独家报道,这些人从 OpenAI 出走并创立 Anthropic,正是因为不认可 OpenAI 的方向改变和某些做法。

Anthropic 成员认为,人们正在疯狂地把某些“一知半解”的知识用于开发神经网络,并且又把这样开发出来的 AI 系统用于越来越高风险的场景,同时却又缺乏对于 AI 可解释性和安全的思考——这就是深度学习领域的现状。

Dario Amodei 接受媒体采访时就曾直言,AI 研究人员应该开发更安全的系统,而不是执迷于“放卫星”似的,盲目开发参数量越来越大的神经网络。

——这基本就是在对 OpenAI 隔空喊话:你们已经忘记了初心。

今天的 OpenAI 已经不再是一家纯粹的非营利研究机构了,而是基本成为了商业公司。但好在,它似乎也已痛定思痛,认清了模型越大偏见越大的问题,并且也看到了这种超大模型应用于商业场景时带来的极大社会风险,所以加紧对 GPT-3 进行可控、可解释,以及安全方面的优化,带来了今天的 InstructGPT 模型。

OpenAI 首席科学家,AI 大神 Ilya Sutskever 表示:“我们很兴奋地看到客户也更青睐这些对齐模型(即 InstructGPT),这意味着我们有更多的激励来开发和完善此类模型。”

本文来自微信公众号:硅星人(ID:guixingren123),作者:杜晨

关键词: GPT-3 模型训练 歧视 AI openai