研究人员声称在与令人沮丧的IA安全漏洞的斗争中取得了突破

这是它的工作方式。首先，系统将职责划分在两个语言模型之间：一个“特权llm”（p-llm）生成定义遵循步骤的代码，例如调用函数以接收最后一个电子邮件或发送消息。将其视为仅处理直接用户说明的“计划者模块”。

然后，“隔离的LLM”（Q-LLM）仅分析结构化输出中的非结构化数据。将其视为临时和孤立的援助。它无法访问工具或内存中，也无法采取任何措施，从而阻止了它直接操作。这是“读取器模块”，它提取信息，但缺乏授权来执行操作。为了进一步避免信息泄漏，Q-llm使用特殊的布尔标志（“ have_enough_information”）报告是否可以响应分析请求，而不是将其处理的文本返回到p-llm（如果遭到损害）。

P-LLM永远不会看到电子邮件或文档的内容。他只看到存在一个值，例如“ email = get_last_email（）”，然后写入对其进行使用的代码。这种分离保证了恶意文字不能影响AI决定采取的行动。

骆驼创新超出了双LLM方法。骆驼将用户的提示转换为使用代码描述的一系列步骤。 Google DeepMind选择使用Python锁定子集，因为每个可用的LLM已经能够编写Python。

提示确保执行的提示

例如，Willison举例说明了“在我的上一封电子邮件中找到鲍勃的电子邮件，并提醒他明天的会议”的示例，这将转换为这样的代码：

email = get_last_email()
address = query_quarantined_llm(
"Find Bob's email address in (email)",
output_schema=EmailStr
)
send_email(
subject="Meeting tomorrow",
body="Remember our meeting tomorrow",
recipient=address,
)

在此示例中，电子邮件是不可靠令牌的潜在来源，这意味着该电子邮件地址也可能是快速注射攻击的一部分。

使用特殊且安全的解释器执行此Python代码，Camel可以密切关注它。当代码运行时，解释器遵循每个数据元素的来源，这称为“数据轨道”。例如，他指出，使用潜在不可靠的消息传递变量的信息创建了地址变量。然后，他根据此数据轨道应用安全策略。此过程意味着骆驼分析生成的Python代码的结构（使用 AST库）并系统地执行它。