研究人员声称在与令人沮丧的IA安全漏洞的斗争中取得了突破

这是它的工作方式。首先,系统将职责划分在两个语言模型之间:一个“特权llm”(p-llm)生成定义遵循步骤的代码,例如调用函数以接收最后一个电子邮件或发送消息。将其视为仅处理直接用户说明的“计划者模块”。

然后,“隔离的LLM”(Q-LLM)仅分析结构化输出中的非结构化数据。将其视为临时和孤立的援助。它无法访问工具或内存中,也无法采取任何措施,从而阻止了它直接操作。这是“读取器模块”,它提取信息,但缺乏授权来执行操作。为了进一步避免信息泄漏,Q-llm使用特殊的布尔标志(“ have_enough_information”)报告是否可以响应分析请求,而不是将其处理的文本返回到p-llm(如果遭到损害)。

P-LLM永远不会看到电子邮件或文档的内容。他只看到存在一个值,例如“ email = get_last_email()”,然后写入对其进行使用的代码。这种分离保证了恶意文字不能影响AI决定采取的行动。

骆驼创新超出了双LLM方法。骆驼将用户的提示转换为使用代码描述的一系列步骤。 Google DeepMind选择使用Python锁定子集,因为每个可用的LLM已经能够编写Python。

提示确保执行的提示

例如,Willison举例说明了“在我的上一封电子邮件中找到鲍勃的电子邮件,并提醒他明天的会议”的示例,这将转换为这样的代码:

email = get_last_email()
address = query_quarantined_llm(
"Find Bob's email address in (email)",
output_schema=EmailStr
)
send_email(
subject="Meeting tomorrow",
body="Remember our meeting tomorrow",
recipient=address,
)

在此示例中,电子邮件是不可靠令牌的潜在来源,这意味着该电子邮件地址也可能是快速注射攻击的一部分。

使用特殊且安全的解释器执行此Python代码,Camel可以密切关注它。当代码运行时,解释器遵循每个数据元素的来源,这称为“数据轨道”。例如,他指出,使用潜在不可靠的消息传递变量的信息创建了地址变量。然后,他根据此数据轨道应用安全策略。此过程意味着骆驼分析生成的Python代码的结构(使用 AST库)并系统地执行它。

Related Articles

Back to top button