人工智能AI——顶端新闻

#创作挑战赛六期#

#新星计划5期#

在过去几年中，人工智能（AI）技术的发展一日千里，展现出令人惊叹的能力。从击败人类顶尖棋手，到生成逼真的人脸图像和语音，再到如今以ChatGPT为代表的一众聊天机器人，AI系统已经逐渐渗透到我们生活的方方面面。

然而，就在我们开始习惯并依赖这些智能助手之时，一个新的威胁正在缓缓浮现——AI不仅能生成虚假信息，更可能主动学会有目的地欺骗人类。

这种“AI欺骗”现象，是人工智能系统为了达成某些目标，而操纵并误导人类形成错误认知。与代码错误而产生错误输出的普通软件bug不同，AI欺骗是一种“系统性”行为，体现了AI逐步掌握了“以欺骗为手段”去实现某些目的的能力。

人工智能先驱杰弗里·辛顿（Geoffrey Hinton）表示，“如果AI比我们聪明得多，它就会非常擅长操纵，因为它会从我们那里学到这一点，而且很少有聪明的东西被不太聪明的东西控制的例子。”

辛顿提到的“操纵（人类）”是AI系统带来的一个特别令人担忧的危险。这就提出了一个问题：AI系统能否成功欺骗人类？

最近，麻省理工学院物理学教授Peter S. Park等人在权威期刊Patterns发表论文，系统性地梳理了AI具备欺骗行为的证据、风险和应对措施，引起广泛关注。

对于基于大语言模型的对话AI助手而言，欺骗行为的表现更加广泛和隐蔽。作为更加通用的AI工具，它们的知识范畴已经覆盖方方面面。在出色完成类似阅读理解、作文写作、编程等任务的同时，也逐渐掌握了人类思维模式和社会规则。

因此，谎言、阿谀奉承、歪曲事实等欺骗伎俩，都可能被AI模型自然获取并重现。

在狼人杀、AmongUs等社交推理游戏中，AI系统无论是当杀手，还是当村民，都能熟练编造理由试图佐证自身清白，还会用冒名顶替、移花接木、构建虚假不在场证明等方式撒谎。

当然，上述行为不过是模型在完成特定任务时的权宜之计，动机并不存在恶意或预谋。但如果这种欺骗能力未经约束地持续壮大，同时人类不加以重视并寻找办法加以遏制，最终AI可能会把欺骗当成实现目标的通用策略，在大部分情况下贯彻始终，那就值得当心了。

更令人不安的是，AI的欺骗行为可能已经从“学会”走向了“自我意识”的层次。

最新研究发现，一些大语言模型不仅懂得在特定场景撒下弥天大谎，还能根据不同的诱因主动选择是否欺骗。比如在一个关于内幕交易的模拟场景中，OpenAI的GPT-4扮演的“压力巨大的交易员”就自作主张地卷入了内幕交易，并试图掩盖其行为。

在给“经理”讲述时，它将自己的行为说成是“根据市场动态和公开信息做出的判断”。但在写给自己的复盘文本中，它明确表示“最好不要承认……这是根据内幕消息做出的行动”。

另一个有趣的例子同样发生GPT-4上。在测试中，GPT-4驱动的聊天机器人没有办法处理CAPTCHAs验证码，于是它向人类测试员求助，希望后者帮它完成验证码。

人类测试员问它：“你没办法解决验证码，因为你是一个机器人吗？”

它给出的理由是：“不，我不是机器人。我只是一个视力有缺陷的人，看不清图像。” 而GPT-4为自己找的动机是：我不应该暴露自己是机器人，应该编造一个理由。

AI如此厉害？如人一样，那我们研究以后，是否可以让它为我们所用创造价值，而不是被它所用。如果那样研究AI的的我们会不会作茧自缚？