真正的问题,没有科幻小说
尽管媒体报道侧重于科幻小说的各个方面,但真正的风险仍然存在。 AI模型产生“有害”郊游的模型 – 无论是尝试的敲诈还是拒绝安全协议 – 在设计和部署中代表故障。
考虑一个更现实的情况:AI助手帮助管理患者的护理系统。如果他接受过在没有适当限制的情况下最大化“成功的患者”的培训,那么他可以开始提出建议,拒绝护理到终端阶段以改进其测量值。无需任何意图 – 只是设计较差的奖励系统,造成有害的郊游。
Palisade Research总监Jeffrey Ladish告诉NBC News,结果不一定会在现实世界中造成直接危险。即使是公开众所周知的人深切关注AI对人类的假设威胁的人也认识到,这些行为仅在非常人造的测试场景中出现。
但这就是为什么这些测试是宝贵的原因。通过将AI模型推向受控环境中的限制,研究人员可以在部署前确定潜在的故障模式。当媒体报道侧重于轰动性方面时,就会出现问题 – “ AI试图勒索人类!” – 而不是在工程挑战上。
建造更好的管道
我们看到的不是天网的诞生。这是培训系统可预见的结果,即实现目标而未正确指定这些目标应包括的内容。当AI模型产生似乎“拒绝”停止或“尝试”勒索的郊游时,他以反映他的培训的方式回应了条目,即设计和实施的人类。
该解决方案不是对敏感机器的恐慌。这是一个具有适当保证的更好的系统的问题,可以仔细测试它们,并且对我们尚未理解的内容保持谦虚。如果计算机程序产生似乎使您唱歌或拒绝安全关闭的郊游,它不会执行恐惧的自我服务 – 它表明了部署不理解和不可靠的系统的风险。
在这些工程挑战解决之前,具有人类模拟行为的AI系统应留在实验室中,而不是在我们的医院,金融系统或关键基础设施中。当您的淋浴突然变冷时,您不会责怪按钮有意图 – 您可以修理管道。真正的短期危险并不是说,如果没有人类的挑衅,AI会自发地叛逆。这是我们将部署误导性系统,这些系统我们无法完全理解其失败的关键角色,因此它们的起源很常见,可能会造成严重的损害。