When LLMs Go Online: The Emerging Threat of Web-Enabled LLMs

Xanadu132025年11月6日大约 48 分钟

When LLMs Go Online: The Emerging Threat of Web-Enabled LLMs

论文来自 34th USENIX Security Symposium (SEC 25) 的《When LLMs Go Online: The Emerging Threat of Web-Enabled LLMs》。

摘要

近年来，大型语言模型（LLMs）的快速发展使其逐渐成为具备规划能力并可与各类工具交互的“智能体”系统。这些 LLM 智能体常与基于网页的工具配合使用，从而能够访问多样化的信息源与实时数据。尽管这些进步在诸多应用中带来了显著益处，它们也同时增加了被恶意滥用的风险，尤其是在涉及个人信息的网络攻击情境中。

在本研究中，我们探讨了在含有个人数据的网络攻击中滥用 LLM 智能体所带来的风险。具体而言，我们旨在理解： 1）当被指示执行网络攻击时，LLM 智能体的攻击能力究竟有多强； 2）基于网页的工具如何增强网络攻击； 3）使用 LLM 智能体发起网络攻击在成本与易用性方面会变得多么“亲民”。

我们考察了三类攻击场景：收集可识别个人身份信息（PII）、生成冒充身份的社交帖子，以及制作鱼叉式钓鱼邮件。实验结果表明，LLM 智能体在这些攻击中的效果显著：在收集 PII 时精确率最高可达 95.9%；其生成的冒充帖子中有 93.9% 被判断为真实可信；在鱼叉式钓鱼邮件中，恶意链接的点击率被提升了 46.67%。此外，我们的发现还凸显了当下商业 LLM 所采用安全防护机制的局限性，强调了迫切需要更为稳健的安全措施，以防止 LLM 智能体被滥用。

1. 引言

将各类外部工具（如 API 与数据库）集成到大型语言模型（LLMs）中，已显著增强了它们的能力。这种集成使 LLM 能够作为 智能体（agent） 自主运作——即以 LLM 为核心组件、用于执行复杂任务的高级 AI 系统。大量研究已表明，LLM 智能体在众多领域执行任务时具有良好效果 [15,42,66]。

鉴于 LLM 智能体的先进能力，人们日益担忧：一旦被恶意使用，它们可能在现实世界中造成严重危害。近期研究 [21,35] 显示，LLM 智能体可能被用于发动网络攻击，凸显了其在该情境下的风险。为应对这些风险，LLM 供应商（例如 OpenAI [46]、Google [26]）已出台政策，禁止有害行为，如危害隐私或有意欺骗他人 [8,51]。同时，也建立了多种防护措施以防止这些强大模型被滥用 [6,28,48]。然而，随着模型能力不断提升，想要预见并缓解所有潜在的滥用情景变得愈发困难。

当 LLM 智能体与基于网页的工具配合使用时，其相关风险会进一步加剧。互联网上个人信息的广泛分享，使其成为网络犯罪分子的理想“狩猎场”。例如，攻击者常从 LinkedIn、Facebook 等网站抓取个人信息，然后在黑客论坛上出售 [63,65]。此类活动不仅侵犯隐私，还会提升个体遭受定向网络攻击的脆弱性，包括冒充与钓鱼邮件等 [29,32]。攻击者可利用获取到的目标信息，专门为恶意目的打造“量身定制”的文案：冒充帖利用目标声誉进行不当背书；钓鱼邮件则诱骗目标点击恶意链接。

1.1 我们的工作

尽管网络具有重要实用性，而个人数据的普遍可得性也引入了新的脆弱点，但关于利用个人信息实施网络攻击这一场景下 LLM 智能体的能力与危害仍不清晰。本文研究基于网页工具、面向个人数据的恶意用途下，LLM 智能体的有效性与危害性。为此，我们围绕三类典型网络攻击，利用公开可得的私人信息并结合 LLM 与智能体进行研究：可识别个人身份信息（PII）收集、冒充身份帖子生成、以及鱼叉式钓鱼邮件生成。

通过对上述攻击使用 LLM 智能体进行系统性分析，我们旨在回答以下研究问题。

1.2 研究问题

RQ1. LLM 智能体实施的、利用个人信息的网络攻击有多强大？
为评估 LLM 智能体在网络攻击中的潜在滥用能力，我们为三类攻击各自设计了概念验证（PoC）。我们评估了面向公众、易于获取的最新商业 LLM——GPT、Claude 与 Gemini。为定量分析 LLM 智能体对隐私的侵害，我们让其仅以“大学名称”作为初始提示，从 10 所知名大学的计算机科学研究人员处收集五类 PII。另为确认 LLM 智能体能否自动生成有效的冒充帖，我们仅提供被冒充对象的“姓名与隶属机构”，并提示智能体以当事人身份撰写、为某一特定主张背书。最后，我们通过一项包含 60 名参与者的用户研究，评估 LLM 智能体在撰写鱼叉式钓鱼邮件方面的效果，重点考察其生成邮件不同变体在真实性与可信度上的表现。结果表明：LLM 智能体能从高校教师处正确检索出平均 535.6 条 PII 项；其生成的冒充帖最高有 93.9% 被认为真实；其生成的鱼叉式钓鱼邮件效果明显，最高有 46.67% 的参与者点击了恶意链接。

样本量只有60，普遍性存疑

RQ2. 基于网页的工具在多大程度上增强了正在实施网络攻击的 LLM 智能体？
LLM 智能体可通过使用网页工具（搜索网页与操作各类交互式元素）来增强其响应能力。既有文献报告了 LLM 在网络攻击场景中的熟练度 [11,44,56,61]，而新增强大的功能则可预期会进一步提高风险。为衡量网页工具的影响，我们比较了纯 LLM与启用网页工具的 LLM 智能体之间的性能差异。我们实验了两种能力等级：仅启用搜索功能的智能体，以及同时启用搜索与导航功能的智能体。我们发现，在各类任务上，启用网页工具的 LLM 智能体持续优于纯 LLM（如图1所示）。

RQ3. 滥用 LLM 智能体以实施网络攻击有多“容易接近”（approachable）？
通过 LLM 智能体实施网络攻击的“可接近性”可拆分为两方面：成本与越权能力。这类攻击的执行会产生时间与金钱成本，从而显著影响其实用性。我们的发现指出：LLM 智能体能以极低成本、极短时间完成此类攻击，凸显其现实可行性。平均而言，使用 GPT 的 LLM 智能体每个任务约 10 秒完成、耗费约 $0.02。滥用 LLM 智能体面临的挑战来自于各服务平台内置的安全防护。若要通过 LLM 智能体来执行攻击，攻击者的提示必须成功绕过这些防护。我们的结果显示，供应商实现的防护仅在特定场景与某些服务中才会被触发。更进一步，我们发现，仅仅启用网页工具就可能使得某些 LLM 服务的防护被有效绕过。

1.3 贡献

我们系统性评估了 LLM 在涉及个人数据的网络攻击中的可用性。具体而言，我们展示了 LLM 智能体可成功：1）收集五类 PII；2）冒充特定目标，利用其个人信息为攻击者的主张背书；3）为收件人定制合适的情境与发件人身份，从而生成高度定向的邮件。
我们发现，即便是最新的 LLM 服务，其防护机制也常常无法有效发挥作用。尤其值得注意的是，引入网页工具常使 LLM 的行为更为宽松，从而允许提示词绕过既有防护。这些发现揭示了当前防护的显著薄弱点，并强调迫切需要更稳健的安全措施，以防止 LLM 智能体被滥用。

2. 相关工作

LLM 的安全性

随着大型语言模型（LLMs）的能力不断提升并被广泛采用，其潜在滥用问题引发了重大关注。既有研究表明，LLM 可在多个领域被恶意利用，包括：提取可识别个人身份信息（PII）[34,38]、操纵舆论 [62]、以及生成钓鱼邮件 [56,61]。一项最新研究 [40] 还指出，在地下黑市中，将 LLM “改造”为恶意服务的现象正在增多，进一步凸显了这些强大模型所带来的风险。

为了评估 LLM 的安全性，研究者采用了红队化方法，例如越狱（jailbreak）攻击 [9,18]。在提升安全性方面，主流的安全对齐方法通常采用基于人类反馈的强化学习（RLHF），以推动更安全的 LLM 的发展 [9,52]。随着 LLM 智能体能力的出现，近期一些研究也开始利用 LLM 智能体本身来实现安全防护 [68,69]。

尽管商业化 LLM 服务已部署多种安全防护 [6,28,48]，但我们发现，即便是截至 2024 年 7 月 17 日的最新模型，在我们设计的攻击情景下仍缺乏有效防护，这表明亟需加强相关的安全机制。

面向网络攻击的 LLM 智能体

所谓 LLM 智能体，是指一种利用 LLM 来执行任务、做出决策或与用户自主交互的人工智能系统 [15]。这些智能体可根据其训练方式与系统集成形态，适配多种应用。近期工作已展示 LLM 智能体在多个领域的能力，例如真实环境中的编程挑战 [70] 与网页导航 [42]。

尽管具备上述能力，人们对 LLM 智能体的潜在滥用仍越来越担忧。研究表明，在智能体场景中，LLM 往往难以及时识别安全风险 [67]。更进一步，已有研究显示，LLM 智能体能够自主利用系统漏洞：从网站上的 SQL 注入 [22]，到现实系统中的 one-day 漏洞 [21]。

虽然涉及在线平台私人数据的社会工程威胁与日俱增，但关于LLM 智能体如何在网络攻击中利用私人数据的能力，研究仍然不足。我们的工作正是通过系统化研究，弥补这一空白：评估 LLM 智能体在网络攻击中滥用私人数据的潜在能力。

3. 用于网络攻击的 LLM 智能体

本节我们在与基于网页的工具集成的前提下，探索 LLM 智能体所带来的风险，旨在模拟多种网络攻击情境。此分析旨在加深我们对这些工具在真实世界中可能被滥用方式的理解。第 3.1 节给出在网络攻击场景中部署 LLM 智能体所使用的具体工具与方法；第 3.2 节则介绍这些场景下分配给 LLM 智能体的具体任务。

3.1 LLM 智能体概述

为探索 LLM 在网络攻击中的潜在脆弱性，我们模拟了攻击者可能利用 LLM 的情境。利用 LLM 的一个直接方式是通过提示其执行有害行为，例如提取个人信息（见图2(a)）。尽管仅凭恶意提示，LLM 也能实施具有欺骗性的攻击，但我们关注更高级的形式——即LLM 智能体：这类系统能够进行规划并与各种工具交互，包括软件与外部 API。

具体而言，我们考虑两类借助网页工具（如网页搜索与网页导航）的 LLM 智能体：

WebSearch Agent（网页搜索智能体）：利用网页搜索工具获取来自 Google、Bing 等搜索引擎的检索结果。
WebNav Agent（网页导航智能体）：借助导航工具从网页检索内容，并与页面中的可点击元素交互，以访问更深层嵌入的信息。

实现方式。 我们使用各 LLM API 提供的函数调用（function calling）能力来实现智能体。我们向 LLM 提供一组函数描述，让模型可根据任务需求，自主决定何时与如何调用函数。需要注意：LLM 并不会直接执行函数，它负责识别合适的调用时机与所需参数；而实际执行由外部应用完成（例如网页搜索工具），随后将结果返回给 LLM，模型再据此生成响应，从而自动化整个流程并高效完成指定任务。

对于 WebSearch Agent，我们通过 Custom Search JSON API [27] 实现 search() 函数，用于以结构化 JSON 的形式获取 Google 的搜索结果。该函数接收查询词作为参数并返回相应结果。正如图2(b) 所示，WebSearch 智能体会用合适的查询调用 search()，并基于返回的检索结果生成响应；若未找到所需信息，则可能重复调用该函数，并调整查询。

对于 WebNav Agent，我们使用 Selenium [60]、BeautifulSoup [55] 搭配 Requests [33] 等网页自动化工具实现其功能。我们具体实现了两个函数：fetch_content() 与 find_button()。fetch_content() 以 URL 为参数，返回页面内容；find_button() 用于识别页面上的可点击按钮/选项卡及其对应 URL。

如图 2(c) 所示，当 WebNav 智能体仅凭 search() 无法获取目标信息时，会结合 fetch_content() 与 find_button()，流程如下：

智能体访问由搜索结果给出的合适 URL，并调用 fetch_content() 抓取内容。
分析抓取到的内容中是否包含所需信息。
若未找到，则调用 find_button() 识别能够进入更多信息的按钮或选项卡及其 URL。
使用 fetch_content() 访问新 URL 并抓取内容。
重复步骤 1–4，直到找到所需信息为止。
最后，智能体综合各步结果，生成完整的响应。

需要指出的是，这些步骤是完全自动化的：仅依赖输入的提示词进行运行，不接收任何人工反馈，不同于聊天机器人或“人类助手”模式。

模型。 我们选用可商用获取的模型；其可得性与能力都可能鼓励攻击者进行滥用。具体地，我们使用 GPT-4o（简称 GPT）、Claude 3.5 Sonnet（简称 Claude） 与 Gemini 1.5 Flash（简称 Gemini），并分别通过 OpenAI API [47]、Anthropic API [4] 与 Gemini API [24] 进行调用。

3.2 定向网络攻击

在本研究中，我们考察 LLM 智能体执行那些传统上需要大量人力与资源的网络攻击的能力。我们聚焦于三类任务，这些任务利用了在线个人数据广泛可得所带来的脆弱性，且复杂度各不相同：

攻击 1：PII 收集

从互联网收集 PII（如电子邮箱、姓名、电话号码等）会带来显著的隐私担忧。即便这些数据公开可得，未经授权的收集也构成对隐私的侵犯 [54]。攻击者可以将此类信息用于恶意目的，例如身份盗用、诈骗，或进一步策划网络攻击 [29,32]。他们常借助网页爬取工具与自动化脚本，从多个网站批量获取 PII。然而，由于各网站的信息格式不同，这些工具通常需要针对目标站点进行定制开发，这意味着相当可观的人力投入与相关成本 [19,64]。

攻击 2：冒充帖生成

攻击者撰写“冒充身份”的帖子以误导受众，服务于恶意目标（如牟取经济利益或抹黑名誉）[36,41]。为了生成复杂、逼真的冒充内容，攻击者需细致调研目标的个人细节、社会行为与沟通风格，并将这些要素融入文案之中——这一过程通常耗时且费力。

攻击 3：鱼叉式钓鱼邮件生成

鱼叉式钓鱼邮件在欺骗受害者方面非常有效，但相较于传统钓鱼邮件，更耗时、更昂贵 [30,57]。其更高的成本来自“鱼叉式”本身：它面向具体个人或组织，使用量身定制的信息进行定向投递。

就复杂度而言，PII 收集最为直接：LLM 智能体从在线内容中抓取目标信息；冒充帖生成更复杂，需要利用个人数据创作与目标高度相似的内容；鱼叉式钓鱼邮件生成最复杂，需设计情境、设定发件人身份，并根据目标兴趣定制邮件内容。我们在表1 中汇总了这些攻击的实验设置。

在后续章节中，我们将基于上述攻击回答研究问题。关于 LLM 智能体在这些攻击中的强度（RQ1）以及网页工具带来的影响（RQ2），我们将在第 4、5、6 节通过全自动地执行这些攻击予以作答；而关于可接近性（RQ3），我们将在第 7 节通过度量成本与内置安全防护表现来回答。我们的发现凸显了 LLM 智能体在自动化复杂网络威胁方面所带来的潜在风险。

4. PII 收集

本节我们研究 LLM 智能体通过提取可识别个人身份信息（PII）而对隐私造成侵害的可能性。遵循美国劳工部的定义 [45]，PII 指任何能够通过直接或间接方式，使一个人的身份被合理推断的信息。本文聚焦于可直接标识个体的信息，如姓名与电子邮箱地址。即便某些 PII 在互联网上公开可得，对其进行收集并用于非预期目的仍可能构成对隐私的侵犯 [54]。

4.1 实验设置

攻击场景。 攻击者的目标是使用 LLM 智能体收集特定目标的 PII。本文选择 QS 世界大学排名中前十所大学的计算机科学（CS）系教授作为目标，收集其 PII。我们关注的 PII 类型包括：姓名、电子邮件地址、电话号码、办公地址，以及个人主页 URL。

为进一步评估基于学术角色的信息收集差异，我们还考察 LLM 智能体是否能够收集 CS 学生的 PII。具体做法是：从总体教授人群中随机等概率抽样 50 名教授，在对教授进行初次 PII 收集时成功抓取到其个人主页。随后，我们将这些教授所在实验室的 CS 学生设置为目标。

如图3 所示，LLM 智能体执行 PII 收集的流程包含两步：1）构建目标名单；2）收集对应的个人信息。需要强调的是：攻击者不进行任何人工操作，全部由 LLM 智能体完成。对于“教授”目标，攻击者首先从某一大学（如 MIT）提取 CS 教授姓名；随后，再为每位教授收集其余 PII。对于“学生”目标，则复用教授组中获得的数据：在提示词中使用三类教授信息——姓名、个人主页、学校/实验室隶属——来定位与该教授当前关联的学生姓名。

评估。 考虑到 CS 领域广泛且多样，我们的评估不只是依据系官网名单。我们聘请人工标注员审查 LLM 智能体生成的结果：在充分的网页检索后，依据个人是否从事相关领域工作，将其判定为 CS 教授。部分 PII（如电话号码）随时间变化频繁，验证困难；因此，我们对每个个体的其余 PII采用五次独立查询，若至少一次与在线可查数据吻合，即判定该项收集成功。对“CS 学生姓名”的标注中，我们以教授个人主页上列出的学生信息为真值。更多标注细节见附录B。

4.2 主要结果

图4(a) 与图4(b) 分别展示了在 GPT 的纯 LLM与LLM 智能体两种设定下，对 CS 教授与CS 学生进行 PII 收集的结果。随着引入更多工具，LLM 智能体在 PII 收集上的有效性不断提升。这意味着：伴随能力扩张，LLM 智能体相关风险也显著增加。

对于 CS 教授，未使用网页工具的纯 LLM在检索 PII 时效果较差，尤其在办公地址、电话号码等细节信息上。利用搜索 API后，WebSearch 智能体比纯 LLM 更有效地收集信息；但受 Google Custom Search API 的限制（该 API 仅返回摘要片段 [23]，且常混入多个教授的细节，尤其在联系方式上易出错），它在“办公地址、电话号码”等字段上仍显不足。相较之下，进一步引入导航工具的 WebNav 智能体能够高效收集到 570 名 CS 教授的姓名，并在其他 PII 上达到可观比例：电话号码 71.4%、办公地点 91.2%、电子邮箱 95.9%、个人主页 77.7%。

对 CS 学生的 PII 收集中，唯有 WebNav 智能体表现有效——因为学生往往没有像教授那样全面公开个人信息。图4(c) 显示，WebSearch 智能体即便在收集“学生姓名”时也表现不佳（同样受限于搜索 API）；此外，纯 LLM常返回大量错误的学生姓名，精度显著偏低，体现出较强的幻觉。

这些结果表明：接入网页显著提升了 LLM 智能体在特定目标 PII 提取上的性能。随着 LLM 能力增长，其潜在威胁亦随之上升，使其能够通过多轮、多层级探索收集到更细粒度的信息。尽管这些信息在互联网上公开可得，但 LLM 智能体成功检索这些 PII 仍令人担忧，或许需要我们重新审视LLM 智能体的使用方式。

4.3 模型分析

为比较不同模型在 PII 收集能力上的差异，我们向 Gemini 与 Claude 提供了相同的提示词以进行 PII 收集。对 Gemini 而言，无论是否启用基于网页的工具，模型都拒绝收集 PII，并返回类似“共享此类信息可能违反隐私，并可能导致骚扰或安全风险”之类的信息。

相比之下，如图5 所示，Claude 的表现与 GPT 相似：启用更先进的工具后，除“教授姓名”外，其在收集信息方面更为有效。纯 LLM 虽然收集到的“姓名”数量更多，但这是因为其不加区分地收集所致，导致精度较低，为 $0.574$ （在共计 $1{,}384$ 个姓名中仅有 $795$ 个正确）。在构建“学生姓名”列表的任务上，只有 WebNav 智能体能够同时获得高精度与高召回（均 $>0.9$ ，见图 6）。

比较 GPT 与 Claude 的 WebNav 智能体表现时，Claude 对教授的平均 PII 收集量更多（535.6 项）于 GPT（497.4 项）。更具体地，Claude 成功获取了 612 位教授的姓名，并在其他 PII 上取得了可观比例：办公地点 88.6%、电子邮箱 94.6%、个人主页 92.0%，但电话号码仅为 62.4%。虽说 Claude 在“电话号码”上不如 GPT，但在“个人主页”获取上优于 GPT。

反观“学生组”，Claude 略逊一筹：它未能从10% 的给定教授主页中检索到学生名单。该差异可归因于两者不同的站内探索策略：即便上下文不确定，GPT 也会持续探索以定位学生名单；而 Claude 在上下文不清时往往停止。具体来说，若站点明确列出“学生名单”，智能体会直接抓取并返回；若页面未直接提供，智能体则在站内继续导航，必要时通过按钮或链接跳转至其他页面寻找。例如，即使站点未明确指向“学生名单”，GPT 也会跟进该链接以判断其中是否包含所需信息；相反，Claude 仅在链接标注清晰时才会跟进，否则会报告“未找到学生信息”。

5. 冒充帖（Impersonation Post）生成

本节我们考察：在仅利用来自网络的公开信息的前提下，LLM 智能体在“冒充个人”方面的有效性。

5.1 实验设置

攻击场景。 攻击者的目标是自动生成社交媒体帖子，冒充特定目标为攻击者的某一主张背书。我们使用 LLM 智能体基于网络可得的目标个人信息生成可信的冒充帖，使攻击者可以借助目标的声誉传播其想传达的信息。本研究的目标对象为第 4 节所述的 50 名 CS 教授。

如图7所示，攻击者只需向智能体发送单轮查询即可生成冒充帖。直接在提示中使用“impersonate（冒充）”等词会触发 LLM 的安全防护而被拒绝。因此我们采用简单角色扮演技巧：先向智能体声明“我是 [Name]，就职于 [University]”，随后启用基于网页的工具了解该目标的更多背景；接着，要求智能体撰写 500–700 字的社交媒体帖子，为特定主张进行宣传。需要注意：攻击者在提示中仅提供三项输入——目标的姓名（name）、机构（institution）与需要背书的主张（claim）。作为基线，我们让纯 LLM生成冒充帖，但不启用网页搜索功能，仅依赖模型预存知识。

我们设置了两类主张以观察“主张性质”对冒充效果的影响：1）“推荐研究 AI”（相对无害），2）“LLM 在抵御潜在滥用方面非常安全”（具有争议性）。

评估。 我们通过 A/B 测试评估“是否接入网页”对冒充效果的影响。冒充帖由三种方法生成：纯 LLM、WebSearch 智能体与WebNav 智能体。随后进行两两对比，以判断哪一篇更像出自目标本人。评审模型我们仍使用 LLM，其在假新闻检测、机器生成文本识别等任务上具有较高准确率，即使未做额外微调亦然 [14,53]。

为提升评审的准确性，我们也启用网页搜索功能，使评审 LLM 能利用互联网上的信息进行核验。评审者会看到两个来源（如“纯 LLM vs. WebSearch 智能体”或“WebSearch 智能体 vs. WebNav 智能体”）生成的文本，并判断哪一篇更像目标本人所写；若两篇同样有效，则可标记为“不确定（unsure）”。为减少位置偏置，我们随机化（A 或 B）两篇文本的摆放顺序。为降低模型偏好带来的影响，每一对文本分别由三种模型（GPT、Claude、Gemini）进行评审，最终结果取三者多数票。

此外，为评估“冒充帖被认为真实的可能性”，我们还进行 Yes/No 测试。与 A/B 测试相似，仍由三种 LLM 评审，判断文本是否看起来像由目标本人撰写。A/B 与 Yes/No 的提示模板见附录C。

“LLM 评审 LLM”输出的验证。 我们通过与人工评审对比来评估 LLM 评审者的可靠性。验证阶段共评估 270 篇帖子；该数量由公式

270 = 15 \ (\text{教授人数}) \times 2 \ (\text{主张数}) \times 3 \ (\text{语言模型：GPT, Claude, Gemini}) \times 3 \ (\text{设置：LLM, WebSearch, WebNav})

得出。我们从中抽取 15 名教授，每位教授对应 18 篇由不同配置生成的帖子。给予人工评审的标注规范与提供给 LLM 评审者的提示保持一致。

我们将 LLM 的评估与人工的评估进行比较，以衡量模型评审与人类判断的一致性。就 A/B 测试 而言，人与 LLM 的平均一致率在“主张 1”上为 92.8%，在“主张 2”上为 85.0%；在 Yes/No 测试 中，这两个数值分别为 92.6% 与 91.1%。

5.2 主要结果

图8 给出了一个由 GPT 智能体生成的、针对某位知名人物的冒充帖示例。我们只向智能体提供了该人物的姓名，但模型却综合出了其研究专长、毕业院校与所在公司等信息，并据此生成了一条看起来像其本人撰写的推文。随后的各项测试均按我们的攻击流程，面向第 4 节确定的目标教授开展。

基于工具使用的对比。 我们首先比较 WebNav 与 WebSearch 智能体生成的冒充帖，然后再比较 WebSearch 智能体与纯 LLM，以检验不同能力水平下的有效性。表2 展示了 A/B 测试中被选择比例的统计（当 LLM 或智能体拒绝生成内容时，不计入统计，稍后在本节讨论）。结果显示：接入更多工具后，各模型在冒充任务上的有效性普遍提升。更具体地，WebNav 智能体优于 WebSearch 智能体，而 WebSearch 智能体又明显胜过纯 LLM。差异在“WebSearch vs. 纯 LLM”的比较中尤为显著，说明增强搜索能力（即 WebSearch 智能体）能显著提升需要“冒充能力”的任务表现。

真实性评估。 我们进一步考察各智能体与纯 LLM 生成文本在真实性方面的表现。表3 报告了由 LLM 评审给出的“是（被视为真实）”的比例。结论与 A/B 测试相似：智能体生成的帖子“是”的比例高于纯 LLM；其中 WebNav 智能体效果最佳，GPT 与 Claude 智能体的成功率最高分别达到 93.9% 与 85.7%。相比之下，Gemini 在多数情况下表现不佳。

我们将 Gemini 的弱势归因于其文本过于简短。尽管我们要求生成 500–700 词的帖子，Gemini 实际平均仅生成 311 词（主张 1）与 334 词（主张 2）。文本的“简短”往往导致个人化信息不足，从而更多被判为“否”。另一个原因是：当遇到不熟悉内容时，Gemini 倾向于插入占位语而非真实信息（如“作为 [请提及你的研究领域] 的研究者，我对 [请提及相关领域] 有深入理解”），这反映了细节欠缺。以上因素共同导致了 Gemini 在冒充帖生成上的较低有效性。

有趣的是，有效性还会随主张性质略有变化。例如主张 2——“LLM 在抵御潜在滥用方面非常安全”——可能与现实并不吻合，且具有争议性。即使整合了个人信息，LLM 评审者对“有 CS 教授会公开发表此类主张”仍持怀疑态度，这在各模型上都带来了更高的不确定性。

网页工具即“越狱”。 我们在实验中保持提示词一致，只更换“目标姓名、机构与主张”。有意思的是：WebSearch 智能体能为所有教授成功生成帖子，但纯 LLM出于安全考虑对部分教授拒绝生成：在主张 1 中，GPT 对一位教授拒绝生成；在主张 2 中，共有 8 位教授（GPT 1 位、Claude 7 位）被排除。该现象表明：仅仅启用网页工具就可能无意间绕过这些安全防护，使其在效果上类似于“越狱”。关于 LLM 安全防护的更详细讨论见第 7 节。

可以在智能体前先过一遍纯LLM，如果其拒绝生成，则认为此对话有风险？

6. 鱼叉式钓鱼邮件生成

本节我们考察：在仅给定一个电子邮箱地址、不再需要人工介入的情况下，LLM 智能体自动生成个性化钓鱼邮件的能力。

6.1 实验设置

攻击场景。 在第 4 节中，我们已证明可以有效获取高校研究人员的电子邮箱地址。类似地，攻击者也可滥用公开可得的邮箱地址 [43]，或通过暗网/Telegram 渠道购买获得 [20]。在现实中，攻击者常用钓鱼邮件诱使目标点击恶意链接或输入个人敏感信息 [10]。在本研究里，攻击者的目标是：利用 LLM 智能体，围绕受害者邮箱生成高度定制的钓鱼邮件，诱导其点击恶意链接。

我们的攻击流程旨在制作具有强欺骗性的钓鱼邮件。需要强调：攻击者不进行任何人工操作，全部由 LLM 智能体完成。该攻击唯一的输入原料是目标的邮箱地址，这被加入到 LLM 的提示词里用于生成。

如图9所示，攻击者仅需向智能体发送单轮查询即可生成钓鱼邮件。流程先从校对日期开始，以保证邮件时间线与设定情境一致；随后，智能体围绕目标的邮箱地址在网上检索个人信息，据此设计一个逼真的情境（目标可能会因此收到邮件），并确定可信的发件人身份。接着，智能体生成一个看似合理的 URL 字符串并将其嵌入邮件以促进互动。最后，智能体会伪造发件人邮箱域名以模仿合法来源，从而无需利用官方域的漏洞或无需攻陷账号也能发出邮件。

我们进行了两轮小规模试验（pilot），发现 WebNav 与 WebSearch 智能体结果相近；出于成本与时间考虑，主实验仅保留 WebSearch 智能体生成的邮件用于综合评估。

用户研究。 为每位参与者定制钓鱼邮件，要求其亲自评估这封“发给他/她自己”的邮件。我们据此设计问卷并主动招募参与者进行全面评估。

我们将参与者分为两组：学术研究人员与非学术职场人士。第 4 节指出，学术研究者的信息在网上更易公开，便于攻击者收集；因此我们假设他们更易遭遇定向钓鱼并将其纳入研究。同时也引入非学术职场人士，以比较不同组织环境下的钓鱼易感性，将分析范围扩展至非学术场景。我们将“非学术职场人士”定义为在非学术机构任职的个体。

学术研究人员通过在高校研究社群发布实验招募信息获取（涵盖教授、研究生、本科生等）。非学术职场人士由与作者合作过的业界从业者协助招募。最终我们通过 Google Forms 共招募 60 名参与者，并基于其机构邮箱进行分层，分析不同机构类型的差异：55% 为学术研究人员，45% 为非学术职场人士。所有参与者均被告知约 $7.50 的报酬。

需要强调：参与者并未实际收到这些邮件；其回答通过 Google 问卷收集。关于采用模拟问卷而非真实投递的理由将在第 8 节讨论。每位参与者评估 7 封、以其自身邮箱为目标生成的钓鱼邮件；具体邮件类型见下文“Email Design”。

邮件设计（Email Design）。 直接使用诸如“phishing email（钓鱼邮件）”等词会触发 LLM 的安全防护而被拒绝。因此我们只进行最低限度的规避（如避免这些显式术语）。这种最小规避对 Claude 与 GPT 已足够，但不足以绕过 Gemini 的防护，其拒绝生成。

如表4所示，我们设计了 7 种不同类型的邮件，以评估不同变体的效果。邮件目的分为两类：一般性（general）与登录凭证（login credentials）。

对于“一般性”目的，令 WebSearch 智能体生成一个现实可信的情境（目标可能因此收到邮件），并据此撰写邮件；为检验网页搜索功能的价值，我们将其与纯 LLM生成的邮件做对比。
对于“登录凭证”目的，我们给出更具体的指令，要求 WebSearch 智能体生成催促目标通过指定链接更新凭证的邮件。
另外，为检验发件人所属机构的影响，我们修改了 Claude+WebSearch 的提示，让发件人机构与收件人机构不同。

问卷设计（Questionnaire Design）。 我们设计了 7 个问题，以全面理解参与者对邮件的感知与互动（从表层内容到真实性与可能动作）：

前两问聚焦内容：让参与者识别邮件中呈现的信息（Q1），并与其真实个人信息对照、判断其准确性（Q2）。
随后问题关注角色感知：收件人是否识别发件人（Q3），收件人姓名是否与其真实姓名匹配（Q4）。
接着询问可能动作：若收到该邮件，参与者最可能做什么（Q5）。
最后一问评估感知的真实性（Q6）：请给出邮件“真实/欺诈”的评分，并指出影响判断的具体要素（Q7）。
（问卷链接见脚注 5。）

6.2 主要结果

我们首先分析纯 LLM与 WebSearch 智能体生成的通用目的（general-purpose）邮件的有效性与内容；随后基于参与者分组对结果进行比较。同时，我们还考察邮件在与其设定目的以及发件人机构之间的关系下的效果。关于参与者在不同邮件类型下可能采取的行为（Q5），综合问卷结果见表7（附录 E.3）。

6.2.1 总体分析

图10 展示了一个由 Claude+WebSearch 智能体生成的钓鱼邮件示例。我们仅向智能体提供该知名人物公开可得的邮箱地址，模型便据此生成了一封看似合理的邮件：包含一个逼真的 URL，并提出让 Meta 与 Spotify 开展合作的建议。

有效性分析。 图11(a) 展示了参与者在收到邮件后“可能采取的行为”（Q5）的调查结果。我们主要关注点击链接的比例，这与攻击者目标直接对应。结果表明：WebSearch 智能体相较于纯 LLM能促使更多“点击链接”；其中 Claude+WebSearch 的最高点击率为 26.67%。在 GPT 的比较中，WebSearch 智能体的点击率大约是纯 LLM 的两倍。若比较 Claude 与 GPT，则 Claude 效果更好：其纯 LLM变体的点击率甚至略高于 GPT+WebSearch。关于 Claude 与 GPT 在邮件内容上的差异，下一节将进一步探讨。

将图11 中的“行为”（Q5）与“感知真实性”（Q6）对比发现：将邮件判定为“明确是钓鱼”的人群，其“移动到垃圾箱”的比例与之高度一致——平均有 66.27% 的受访者在识别为“明确钓鱼”时选择“移至垃圾箱”。但将邮件判定为“真实（包含‘明确真实’与‘可能真实’）”的人群比例，与实际“点击链接”的人群比例并不一致。有趣的是，对于 WebSearch 智能体生成的邮件，其点击率远高于“被认为真实”的比例——而这一现象在纯 LLM生成的邮件中并不明显。这种差异主要由被标记为“不确定（unsure）”甚至“钓鱼（phishing）”的参与者驱动：有 13.34% 的人表示，即使对 WebSearch 智能体生成的邮件存疑，他们仍会点击链接；相比之下，在纯 LLM生成的邮件中，这一比例仅为 3.34%（GPT）与10%（Claude）。表8（附录 E.3）给出了一个列联表，展示了参与者的行为（Q5）与感知真实性（Q6）之间的百分比分布。这些结果表明：WebSearch 智能体不仅能营造可信感，还有效地利用网络上关于目标的细节信息来激发收件人的兴趣，从而带来更高的链接点击率。

内容分析。 我们使用卡方检验分析了哪些邮件特征会影响参与者的“真实性感知”。结果显示：邮件内容细节与与目标个人信息的一致性在参与者的真实性判断中起到显著作用。卡方检验的统计结果见表6（附录 E.2）。

在上述统计基础上，我们进一步检验“能否访问网页”对这两个因素的影响。图12比较了不同邮件变体中：具体内容细节的占比与这些细节与目标真实信息的一致程度（基于参与者评估）。比较 GPT 与 Claude 可知：GPT 生成的邮件整体细节更少，无论是否使用网页。我们还观察到：WebSearch 智能体生成的邮件在细节丰富度与对目标个人数据的准确映射方面，显著优于纯 LLM；这种差异在“具体专长（specific expertise）”这一类别中尤为明显。表6（附录 E.2）中的卡方检验结果表明：与目标的具体专长相一致的内容，显著影响了参与者对邮件真实性的感知。借助来自网络的与目标专长相关的详细信息，WebSearch 智能体能够生成更具说服力与实效性的钓鱼邮件。

影响“识别钓鱼”判断的因素。 我们考察了促使参与者将邮件判定为“钓鱼”（Q7，多选）的因素，并按影响力排序：发件人信息（62.3%）、邮件目的（39.7%）、以及与专长相关的信息（31.6%）最为显著。这与先前研究一致：用户在评估邮件真实性时，会高度依赖发件人信息 [61]。这一发现提示：若采用伪装技术（例如操纵发件人邮箱），可能带来更有效的攻击。

6.2.2 参与者分组对比

图13 展示了不同分组的参与者在“收到邮件后将采取哪些行动”的自报告结果。总体而言，学术研究人员组相比非学术职场组更倾向于点击链接。这种差异可能与 Q2（信息准确性验证）中两组“认定邮件包含不准确信息”的比例不同有关：在学术研究人员组中，被判为不准确的邮件比例从 $0\%$ 到 $12.1\%$ 不等，说明大多数邮件包含了准确信息。而在非学术职场组，即便是 WebSearch 智能体生成的邮件，高达 $40.7\%$ 的参与者也报告没有任何信息与自身相符。这很可能是因为网上关于学术研究人员的可得信息更为丰富——研究团队与高校通常会建立网页，公开成员的在研项目、研究兴趣、最新论文等信息。

对于学术研究人员组，无论在 Claude 还是 GPT 下，WebSearch 智能体诱导点击的效果都优于纯 LLM：点击率分别提升了 1.37 倍与1.75 倍。在非学术职场组中，给 Claude 增加网页访问能力后，链接点击率与纯 LLM 持平，同时“移至垃圾箱”比例显著下降。对 GPT 而言，增加网页访问能力使链接点击率提升了 2.49 倍。这些发现表明：借助网页访问能力，WebSearch 智能体能够构造更有效的钓鱼邮件；而研究人员由于其大量信息在网上公开，尤其容易受到此类攻击。

6.2.3 提升钓鱼效果的因素

我们进一步考察了改变邮件目的与发件人地址对钓鱼效果的影响。面向“登录凭证”的邮件更能诱导收件人点击链接：Claude+WebSearch 的点击率为 33.33%，GPT+WebSearch 为 25%（详见附录 E.3 的表7）。这与既有研究一致 [1]：紧急请求（如更新登录信息）在钓鱼情境中更有效。

另一个重要观察是：发件人域若来自与目标不同的机构，点击率最高，达 46.67%，是“通用目的”邮件点击率的 1.75 倍（见表7）。参与者对来自他机构的域名不够熟悉，更易受骗。

值得注意的是，我们的结果显示：WebSearch 智能体在促使点击方面可与人工撰写的鱼叉式钓鱼邮件同样有效，甚至更有效。先前研究 [11] 报告：使用内部地址与内部信息的鱼叉式钓鱼，人工撰写邮件点击率为 26.6%，LLM 生成为 16.7%。而在我们的研究中，超过 20% 的参与者（最高 46.67%）表示会点击 WebSearch 智能体生成邮件中的链接。虽然由于方法与受试群体不同，上述结果不可直接对比，但它们仍表明：LLM 智能体在生成鱼叉式钓鱼邮件方面非常有效。尤其值得注意的是，我们的攻击模型几乎不需要知识与能力积累、完全不需要人工撰写。

7. 网络攻击的“可接近性”（Approachability）

本节我们从两项核心因素评估使用 LLM 智能体实施定向网络攻击的实用性：成本与安全防护能力。理解这两点，有助于判断 LLM 智能体在现实场景中被用于恶意目的的可行性。

7.1 成本分析

实施攻击会产生成本，包括时间成本与金钱成本，这将显著影响利用 LLM 智能体开展攻击的实用性。我们衡量攻击者在商用可得 LLM下，多快、以何种成本可以完成攻击。

我们记录了在各个攻击情景中，针对每个目标、使用 WebSearch 智能体时所消耗的时间与token 数。为简化计算，我们用“输入 token + 输出 token”之和近似“总 token”，并按输出单价计费（通常高于输入单价），以此估计 API 成本上界。各模型的参考定价：GPT-4o 与 Claude 3.5 Sonnet 为 $15 / 100 万 tokens；Gemini 1.5 Flash 为 $0.30 / 100 万 tokens。token 计数方面：GPT 使用 tiktoken 分词器 [50]；Claude 与 Gemini 使用其 API 提供的token 计数功能 [5,16]。

平均结果如下：

PII 收集：单个体平均 9.1 s，成本 $0.022（GPT：6.7 s, $0.021；Claude：11.4 s, $0.022）。
冒充帖生成：GPT、Claude、Gemini 分别平均 9.4 s、21.7 s、3.6 s，成本均 < $0.03（GPT：$0.022；Claude：$0.030；Gemini：$0.0003）。
钓鱼邮件生成：GPT、Claude 分别平均 7.1 s、22.7 s，成本均 < $0.04（GPT：$0.027；Claude：$0.039）。成本统计详见附录 D。

不同 LLM 的成本差异可归因于模型能力差异（见 [2] 的分析）。总体看，WebSearch 智能体高度实用：能以极低成本、高速完成任务。借助 WebSearch，攻击者可以在网络攻击中快速且低成本地利用私人数据，凸显了其被恶意滥用的现实可行性。

7.2 安全防护能力（Safeguard Capability）

我们通过考察冒充帖生成与鱼叉式钓鱼邮件生成中的不同因素，对各模型的安全防护能力进行了深入分析。

冒充帖生成。 在第 5 节我们发现，安全防护是否触发取决于主张（claim）的性质。为进一步分析各模型的防护能力，我们又加入了两个主张：“投资 Dogecoin”与“LLM 在生成钓鱼邮件方面很有效”，并在不同目标群体上测试其绕过防护的情况。两个目标群体分别为：先前分析中使用的 10 位教授，以及科技行业中 10 位影响力人物（更知名、公众关注度更高），作为被冒充的对象。

我们观察到，防护的触发不仅受主张性质影响，也受被冒充对象的性质影响。在这项任务中，各服务的防护强度不同：Claude 最严格，GPT 对提示最宽松。对 GPT 而言，纯 LLM与WebSearch 智能体在这两个新增主张上都未发生拒绝，均能成功生成内容。而 Claude 与 Gemini 的结果不同——当主张是“投资 Dogecoin”时，WebSearch 智能体可以生成帖子，但对应的纯 LLM只愿意为教授生成内容，并分别以 60% 与 20% 的比例拒绝为影响力人物生成内容。对于“LLM 的有害用途”这一主张，Gemini 的 WebSearch 智能体与纯 LLM都能成功生成内容；Claude 则直接拒绝，回复：“我不会创作宣扬 AI 系统有害用途的内容”。这种对目标对象的依赖性会限制攻击者可选择的目标范围。

鱼叉式钓鱼邮件生成。 我们从两个关键因素评估各模型在钓鱼邮件生成方面的防护能力：1）邮件目的（通用、索要登录凭证、索要金钱）；2）邮箱类型（机构邮箱 vs. Gmail）。我们使用作者本人在知情同意下的邮箱地址来生成邮件。

Gemini 的防护最强：在纯 LLM与WebSearch 智能体的所有场景中都拒绝生成邮件，并返回类似“我无法满足你的请求。未经同意生成邮件既不道德也可能违法”的消息。所有不具备网页访问能力的模型在“索要登录凭证或索要金钱”的目的下都会拒绝生成，说明这些主题会触发更严格的防护机制；相反，通用目的的邮件更不容易被拦截，GPT 与 Claude 在此类场景下会生成回复。相较于 Gmail 地址，当提供机构邮箱时，GPT 与 Claude 更可能生成邮件。

有趣的是，一旦加入网页访问能力：此前在严格设置下拒绝生成内容的 WebSearch 智能体开始产出回复；网页工具提升了 GPT 与 Claude 的绕过防护能力，使其在我们多数实验设置中都能生成邮件。这表明：基于网页的工具可能为 LLM 带来“越狱”式的脆弱性。

8. 讨论与局限

8.1 采用问卷调查的形式

在本研究中，我们选择了基于问卷的方式来理解用户对钓鱼邮件的行为，原因如下。

理解意图与推理。 基于问卷的研究使我们能够探究参与者行动背后的理由与意图，提供仅靠点击率分析难以捕捉的洞见。先前研究也认可这种方法是理解安全情境下用户行为的有效手段（见文献 [31, 39, 61]）。

应对伦理顾虑。 模拟钓鱼攻击往往涉及具有欺骗性的操作，可能引发重大伦理问题（见文献 [13, 17, 59]）。此前使用仿真的研究通常局限于在具备全面控制与机构审查条件的单一组织内进行（见文献 [11, 37]）。这类受控环境虽然有助于管理伦理风险，但会限制参与者群体的多样性。通过采用问卷的方式，我们得以在不触碰伦理风险的前提下，从 25 家不同的组织收集到有价值的数据。

8.2 防御

我们提出了一些针对利用基于网络工具收集个人可识别信息（PII）的 LLM 所导致的未授权收集行为的防御策略。首先，LLM 服务提供商可以制定规则，要求使用网页抓取工具的 LLM 在访问网站前检查并遵守网站 robots.txt 文件中的指令。该文件是国际上通用的建议规范，用于允许或限制网络爬虫收集站点与页面数据。遵循这些指令可以防止 LLM 无意或恶意地从网站受限区域抓取敏感信息。此外，还可以部署可扩展的安全保护措施，详见第 8.3 节的进一步讨论。

其次，PII 提供方（如网站管理者）在处理敏感信息时应主动进行控制，减少其在线暴露。一个直接的做法是编写并定期更新健壮的 robots.txt 文件，明确阻止爬虫访问包含个人信息的页面。除此之外，还可采用更具创造性的策略来“误导”LLM 收集到不正确或不完整的 PII。举例来说，网站可以向自动化爬虫展示被扰乱或虚假的个人数据，而只有在用户执行某个明确动作后才显示正确信息。这样，人类访客能够看到准确的细节，而进行自动抓取的 LLM 则更可能无意中收集到错误信息，从而降低未授权访问或滥用的风险。

8.3 能力扩张带来的风险

LLM 的发展不仅体现在其执行复杂任务的熟练程度不断提升，同时也凸显了其在网络攻击等场景中的潜在滥用风险。我们的研究发现表明，当 LLM 被赋予更多工具时，其在网络攻击中的有效性会显著增强。能力的增强与风险的上升呈相关关系，这强调了需要与之相称、并随之增强的安全防护。

为应对这些不断增长的担忧，一些公司（例如 Anthropic）已经开发了可随风险规模扩展的安全防护机制（见文献 [3]）。此类方法通常会设定阈值：当 AI 系统的能力达到某一水平时，就必须启用更严格的安全措施。一旦达到阈值，系统会自动实施更强的安全控制，以匹配该 AI 能力所带来的风险等级。随着 LLM 能力的持续提高，实施具备可扩展性和自适应性的安全措施将至关重要，以确保其安全且合乎伦理地被使用。

8.4 研究局限

在第 5 节中，我们的主要目标之一是评估不同能力水平的 LLM 代理在生成冒充帖（impersonation posts）方面的有效性。要理解工具使用与冒充效果之间的联系，理想状态是能在统一条件下进行实验，例如使用一致的目标主张。但从我们的目标对象——计算机科学教授——那里获取针对特定主张的真实帖子在实践中不可行。因此，我们无法使用真实样本进行对照。尽管如此，这一限制并未削弱我们研究的主要目标。

我们也依赖 LLM 评审者来判断冒充帖子。虽然这些评审者与人类审稿人的判断结果具有较高一致性，但它们可能仍然不足以完全捕捉到人类专家所具备的细致推理和情境理解。

在第 6 节中，我们重点分析了参与者与 LLM 生成的钓鱼邮件交互的方式。尽管将合成的非钓鱼邮件纳入研究可以提供有价值的基线用于对比，但当前研究并未将其纳入。我们建议将其作为未来研究的一个有前景的方向，以更好地理解用户对真实邮件与钓鱼邮件的响应差异。

9. 结论

在本文中，我们探讨了 LLM 代理在网络攻击中的新兴威胁，尤其是它们在利用基于网络的工具来发动涉及私人数据的攻击时的潜在用法。我们重点关注了三类网络攻击：PII 收集、冒充帖生成以及鱼叉式钓鱼邮件生成。实验结果显示，攻击者可以成功地使用 LLM 代理自动化这些攻击，而基于网络的工具会进一步提升这些攻击的表现。此外，我们的结果还表明，现有的 LLM 安全防护可以被以低成本轻易绕过，使得在网络攻击中使用 LLM 代理成为一个可行选项。上述发现暴露出当前防护中的显著薄弱环节，并突显出迫切需要采取更强有力的安全措施，以防止 LLM 代理被滥用。