Towards an Agent-First Web: Redesigning the Web for AI Agents

📄 Abstract - Towards an Agent-First Web: Redesigning the Web for AI Agents

The World Wide Web was built on an assumption held for three decades: the primary consumer of web content is a human being. This permeates every layer; its access model presumes human visitors, its economics rest on human attention, and its content targets human perception. The rapid emergence of AI agents as intermediaries between humans and web content invalidates this assumption. Yet the web resists agents through blanket blocking, CAPTCHA-based exclusion, and economic models that treat agent access as extraction rather than legitimate interaction. This paper proposes a principled redesign across three layers. At the access layer, agents acting for humans should inherit equivalent access rights, governed by rate limiting and agent identification metadata in HTTP requests, analogous to browser headers, alongside a dual-layer architecture serving human-readable and agent-optimized content from the same domain. At the economic layer, we propose an intent-based tier framework grounded in the agent-as-human-proxy principle: an agent's economic obligation mirrors that of the human it represents. A token-based subscription model meters content in tokens rather than pageviews, alongside a commissioned content economy anchoring AI content production in human intentionality. At the content layer, we identify epistemic recursion, the self-referential loop in which AI-generated content is consumed by agents to produce further content, progressively detaching web knowledge from human ground truth. We propose the Agent Text Markup Language (ATML), a four-level human supervision tier model, and a cryptographic provenance chain to counter this threat. Together these constitute ten design principles for an agent-first internet, one in which agents are first-class citizens whose integration requires renegotiating the web's foundational social contract across access, economics, and content.

面向AI代理的Web重设计：原则与机制 / Towards an Agent-First Web: Redesigning the Web for AI Agents

1️⃣ 一句话总结

该论文系统性地提出了一个重构互联网的框架，通过访问层、经济层和内容层的协同重设计，将AI代理视为与人并列的一等网络公民，以解决现有网络在AI代理交互中出现的访问封锁、经济错位和知识退化问题。

2️⃣ 论文创新点

1. 三层协同重设计框架

创新点：提出对互联网的访问、经济和内容三个相互依赖的层面进行同步重构，要求AI代理的访问权限应继承其所代表的人类用户，通过速率限制和标准化代理识别元数据进行管理。
区别/改进：改变现有网络只针对人类消费者的单一假设，使AI代理能合法、高效地与网络交互，避免碎片化、被动化的局部修补。
意义：为AI时代的人机交互提供了可操作的网络基础设施重构蓝图，将挑战定位为需要重新协商互联网基础社会契约的技术社会问题。

2. “认知递归”现象识别与治理方案

创新点：识别了AI生成内容被AI代理消费并用于进一步生成内容，导致网络知识逐渐脱离人类真实信息源的“认知递归”结构性威胁，并提出代理文本标记语言（ATML）和四层人工监督模型及加密溯源链。
区别/改进：通过语义化内容和人工监督层级确保内容生产始终锚定于人类真实意图，解决了模型在AI生成数据上训练时质量逐渐退化的“模型塌陷”问题。
意义：提供了防止Web知识质量退化的技术治理方案，从结构上打破了自我指涉的认知循环，确保了内容来源的可追溯性和人类真实意图的锚定。

3. 基于意图的分层经济模型

创新点：拒绝通用按查询付费模式，提出基于意图的分层框架和代币化订阅模型，核心原则是“代理即人类代理”，即代理的经济义务应与其代表的人类一致。
区别/改进：替代现有无法扩展的通用按查询付费模式（如Perplexity的收益分享、Cloudflare的按爬取付费），使经济模型更公平、可持续。
意义：解决了AI代理访问Web内容时经济激励扭曲的问题，为开放代理访问提供了可持续的经济基础。

4. 代理识别机制与访问策略标准

创新点：提出标准化HTTP请求头中的代理识别元数据，允许AI代理声明身份、所代表的人类和意图；同时提出agents.txt作为可机读的访问策略标准，替代传统的robots.txt。
区别/改进：从“能做什么”（允许/禁止）转向“为什么做”（意图），使服务器可以实施速率限制而非全面封杀。
意义：为访问层提供精准、可协商且可执行的机制，是建立AI代理作为一等公民身份的关键技术基础。

5. 双层网页架构

创新点：支持渐进式迁移而非颠覆性替代的网页架构，可以同时为人类和代理提供优化版本的、结构化的内容。
区别/改进：当前网页完全为人类呈现优化（如HTML渲染），代理只能费力解析。双层架构允许服务器主动向代理提供结构化、去噪声的版本。
意义：实现了从“代理费力适应网页”到“网页主动适应代理”的转变，并提供了平滑过渡的路径。

3️⃣ 主要结果与价值

结果亮点

代理优化后的内容交付相比标准HTML交付可减少67.6%的token消耗。
零点击搜索已占Google查询量的60%，AI搜索点击率仅1%，导致出版商流量急剧下降（如HubSpot下降70-80%）。
OpenAI和Anthropic爬虫的高爬取-推荐比造成了经济不对称性。
Cloudflare作为处理全球16%以上互联网流量的基础设施提供商，自2025年7月起默认屏蔽AI爬虫。

实际价值

提供了区分个人代理、搜索代理、训练爬虫和恶意机器人的访问分类框架，为设计分级、上下文自适应的访问控制机制奠定理论基础。
揭示了传统注意力经济模型无法适应AI代理时代的结构性原因，论证了需要构建新的经济模型来适应AI代理生态。
通过识别“消费问题、归因问题、生产问题”三层分解，为构建可持续的代理-发布者经济关系奠定理论基础。

4️⃣ 术语表

认知递归 (Epistemic Recursion)：AI生成的内容被AI代理消费并用于进一步生成内容，形成自我指涉循环，导致网络知识逐渐脱离人类真实信息源的结构性威胁现象。
代理文本标记语言 (ATML)：一种针对AI代理消费优化设计的语义化内容格式，旨在替代传统面向人类的HTML格式，使内容结构和意图对机器可读和可验证。
agents.txt：一种可机读的网页访问策略标准文件，用于替代传统的robots.txt，允许网站管理员声明对不同意图（而非仅仅用户代理）的AI代理的分级访问权限。
模型塌陷 (Model Collapse)：当模型在AI生成的数据上训练时，模型质量会逐渐退化的现象。本文引用此概念作为认知递归理论框架的实证基础。
零点击搜索 (Zero-click search)：AI系统合成答案而不引导用户访问源内容的搜索模式。用户无需点击任何链接即可满足信息需求，导致发布者无法获得流量和广告收入。
三层失败 (Three-layer failure)：指以人本位的网络在访问层、经济层、内容层上的失败，包括无机制区分代理类型、价值交换缺失、内容格式不兼容等。
模型上下文协议 (Model Context Protocol, MCP)：Anthropic提出的开放标准，使AI代理能够通过统一接口连接到外部工具和数据源，解决代理与工具通信的碎片化问题。
代理间通信协议 (Agent-to-Agent, A2A)：Google提出的代理间通信协议，支持异构代理系统之间的协调。
随机鹦鹉 (Stochastic Parrots)：Bender等人对大型语言模型的描述，指其是重组现有模式而无世界经验基础的系统。本文以此概念来论证人类意向性锚点的必要性。
溯源不兼容 (Provenance incompatibility)：当前网络内容缺乏标准机制声明其来源、衍生链以及人类监督程度，使AI代理无法进行质量感知的内容决策。

← 返回列表

菜单

AI 帮我研读全文

1️⃣ 一句话总结

2️⃣ 论文创新点

1. 三层协同重设计框架

2. “认知递归”现象识别与治理方案

3. 基于意图的分层经济模型

4. 代理识别机制与访问策略标准

5. 双层网页架构

3️⃣ 主要结果与价值

结果亮点

实际价值

4️⃣ 术语表

密码管理

设置密码

修改密码

移除密码

菜单

AI 帮我研读全文

1️⃣ 一句话总结

2️⃣ 论文创新点

1. 三层协同重设计框架

2. “认知递归”现象识别与治理方案

3. 基于意图的分层经济模型

4. 代理识别机制与访问策略标准

5. 双层网页架构

3️⃣ 主要结果与价值

结果亮点

实际价值

4️⃣ 术语表

获取最新论文摘要