如何管理 AI 爬虫访问，而不误伤搜索收录

AI 爬虫权限正在变成站长需要认真考虑的配置。有些网站希望尽可能被 AI 搜索和问答工具发现；有些网站只想允许少数可信 AI 系统抓取；也有些网站希望尽量禁止 AI 爬虫读取内容。

这里没有唯一正确答案。合适的策略取决于你的商业模式、内容类型，以及你对内容被引用或再利用的接受程度。

三种常见策略

大多数网站会落在三种模式里：

1. 完全开放：允许已知 AI 爬虫访问公开页面。适合希望获得曝光、引用和 AI 搜索流量的网站。前提是内容本来就是公开的、原创的，并且目标是让更多读者看到。

2. 选择性开放：只允许部分爬虫，限制其他爬虫。例如允许 ChatGPT 和 Perplexity 相关爬虫，但限制不熟悉的小模型爬虫。这种方式需要维护，因为 User-agent 名称和平台政策可能会变化。

3. 全部禁止：尽量阻止已知 AI 爬虫访问公开内容。它可能适合私密社区、付费内容预览或不希望 AI 系统使用内容的发布者。但也要现实一点：公开网页仍可能通过外链、搜索摘要、缓存或第三方引用被间接发现。

robots.txt 很有用，因为它向爬虫表达访问规则。但它不是密码、付费墙，也不是单独的法律合同。负责任的爬虫可能遵守它，不良爬虫可能无视它。

如果某个页面必须保密，不要依赖 robots.txt。应该使用登录权限、移除公开 URL，或放到真正的访问控制后面。

llms.txt 可以让你的意图更清楚。如果你选择完全开放，它可以引导 AI 系统优先阅读你的核心页面。如果你选择性开放，它可以说明站点允许范围和官方上下文位置。如果你选择全部禁止，也可以写公开说明，但不要在 llms.txt 里推荐那些你在其他地方禁止访问的页面。

一致性很重要。混乱配置就像门口写着”欢迎进入”，走廊里又贴着”禁止入内”，机器和人都会困惑。

发布爬虫规则前，可以问自己：

对多数小型技术站来说，完全开放或清晰记录的选择性开放，比维护一大串复制来的黑名单更可靠。

爬虫名称会变化，所以任何名单都只能当作起点。站长常见会检查的 AI 相关名称包括 OpenAI/ChatGPT、Anthropic/Claude、Google 相关 AI 爬虫、Perplexity、Meta AI、Apple 相关 AI 爬虫，以及其他公开文档中列出的 AI agents。

不要盲目复制网上的屏蔽列表。一条复制来的规则可能误伤你想允许的爬虫，也可能根本没有覆盖你真正想限制的对象。

建议给爬虫策略留一份简短变更记录，不一定公开。例如：”2026 年 6 月：从完全开放改为选择性开放；允许 X 和 Y；限制 Z。” 未来排查问题时会很有用。

AI 爬虫管理不是一次性开关，更像维护门禁：规则简单、标签清楚、定期检查。