刚刚OpenAI宣布斥巨资建立超级对齐团队向人类意图看齐

作者 智商掉了一地、ZenMoore

自从 AlphaGo 在围棋的对决中轻松击败人类世界冠军李世石以来,全球对 AI 的目光从震惊转向了敬畏。这一历史性的时刻,不仅彻底改变了我们对机器学习的理解,也在心中投下了一颗关于未来可能性的种子。在这场无声的“大脑”比拼中,AlphaGo 以其无懈可击的策略和深度预算能力,再次证明了 AI 在处理复杂问题时的独特优势和潜力。而在科幻电影《终结者》中,AI 系统 Skynet 的智商远超人类,其逻辑与思维极其缜密,但最终却与人类利益相悖,做出摧毁世界的决定,这可能是大部分人对“超智能”AI 的第一印象。

近日,OpenAI 也正在为 AI 未来的新发展进行着准备。他们计划重新整编团队,由其首席科学家和公司联合创始人 Ilya Sutskever 带领新团队,探索引导和操控“超智能”AI 系统的新方法。

博客题目: OpenAI – Introducing Superalignment

新闻速览在 OpenAI 近日发布的一篇博客中,Ilya Sutskever 和 OpenAI 的对齐团队领头人 Jan Leike 预见,未来十年内,可能会出现智商超过人类的 AI 系统。如果最终真的出现这种 AI 系统,未必与人类利益存在一致。因此, Sutskever 和 Leike 强调有必要研究如何控制和限制它。

他们在文章中写道:“当前,我们还没有精确的方法来引导或控制可能的超智能AI,以防其无法控制。现有的为AI定向的技术,例如利用人类反馈的强化学习,赖以人类的监督。但是,人类可能无法有效地监督比我们聪明很多的AI系统。”

为了在“超智能对齐”领域取得更大突破,OpenAI 的这个“Superalignment”团队将获得公司现今计算力的 20%。携手 OpenAI 先前对齐部门的科学家和工程师,以及公司其他组织的研究人员,致力于在接下来的仅仅四年的时间中解决控制超智能 AI 的核心技术挑战。

他们的策略是构建所谓的“人类水平的自动化对齐研究者”。高层目标是利用人类反馈,训练 AI 协助评估其他 AI 系统,进而可以应用大规模计算资源对初始工作进行扩展,并对超级智能进行迭代对齐。“对齐研究”在此意味着确保 AI 系统实现预期目标,或避免目标的走偏。

OpenAI 提出的假设是 AI 可能比人类更能有效地进行对齐研究。

Leike 及其同事 John Schulman 和 Jeffrey Wu 在先前的博客中提出,“随着我们在这个领域的进步,我们的 AI 系统可以接手我们越来越多的对齐工作,最终构想、实施、研究和开发比现有的对齐技术更先进的对齐技术。他们将协同人类确保他们的后继者更好地与人类对齐……人类研究者将更多地将精力集中在审查 AI 系统所做的对齐研究,而非自己去开展这些研究。”

方法openAI在博客中指出,对首个“自动化对齐研究者”进行对齐,我们需要:

研发可扩展的训练方法;有效地验证生成的模型;对整体的对齐流程进行严格压力测试。在处理对于人类而言难以评估的任务时,我们可以借助AI系统协助对其他AI系统进行评估(被称为可扩展的监督),来获得有效的训练信号。同时,我们也致力于研究和理解如何让这个模型将监督应用到无法手动进行监督的任务上,以研究其泛化能力。我们会检测系统对齐的准确度,并自动发现任何可能出现的问题行为(这展示其强大的稳定性)以及查明任何可能的潜在内部问题(这是自动解释能力的一部分)。最后,我们可以有意识地训练不对齐的模型,并通过对抗性测试来确认该技术是否能够检测到最严重的对齐失误。以此来有效测试整个流程。随着对这一问题的理解深入,研究重心将可能会发生重大调整,甚至会新增研究领域。OpenAI 将计划在未来分享更多关于这项研究的进程和计划。

小结当然,任何方法都不能保证完全无误。Leike、Schulman 和 Wu 在他们的文章中也承认了 OpenAI 存在许多局限性。他们表示,使用 AI 系统进行评估可能会放大该 AI 的不一致性、偏见或漏洞。并且对齐问题最难的部分可能并不与工程技术有关,属于多领域的问题。

但 Sutskever 和 Leike 都认为这个尝试是值得的。

他们指出:“超智能对齐基本上是一个机器学习问题,我们认为即使没在对齐问题上开展研究的机器学习优秀专家,也将对其解决起到关键作用。我们计划广泛地分享这个进程的成果,并认为向非 OpenAI 模型的对齐和安全性做出贡献是我们工作的重要部分。”

然而,这项研究注定任重而道远。在设计和实现 AI 系统时,工程技术固然非常重要。然而,所谓的“对齐问题”主要关注如何使 AI 的目标与人类的目标、价值观和道德规范保持一致。这是一个主要涉及到道德、伦理、心理和社会学等领域的问题。

理解和解决这个问题的难点在于,人类的目标、价值观和道德规范都深植在文化、历史、经验和思想中的。这些因素都有极大的复杂性和多样性,因此很难被明确地定义或量化。

此外,即使我们设法定义了一个相对清晰和确定的目标,也可能遇到“漂移”问题。也就是说,随着时间的推移和环境的变化,人类的目标和价值观可能会发生变化,AI 系统需要有能力跟随这种变化适应和更新。这也是个涉及机器学习、强化学习、动态系统等领域的复杂问题。

最后,即使 AI 系统经过了精心的设计和调整,也无法完全保证其行为和结果总与人类的目标和价值观完全一致。因为在真实的世界中,常会出现意料之外的情况和结果。所以,解决对齐问题需要涉及的领域远超工程技术,需要多学科的知识和理解,以及更深入的思考和讨论。