AI 爬虫权限正在变成站长需要认真考虑的配置。有些网站希望尽可能被 AI 搜索和问答工具发现;有些网站只想允许少数可信 AI 系统抓取;也有些网站希望尽量禁止 AI 爬虫读取内容。
这里没有唯一正确答案。合适的策略取决于你的商业模式、内容类型,以及你对内容被引用或再利用的接受程度。
三种常见策略
大多数网站会落在三种模式里:
1. 完全开放:允许已知 AI 爬虫访问公开页面。适合希望获得曝光、引用和 AI 搜索流量的网站。前提是内容本来就是公开的、原创的,并且目标是让更多读者看到。
2. 选择性开放:只允许部分爬虫,限制其他爬虫。例如允许 ChatGPT 和 Perplexity 相关爬虫,但限制不熟悉的小模型爬虫。这种方式需要维护,因为 User-agent 名称和平台政策可能会变化。
3. 全部禁止:尽量阻止已知 AI 爬虫访问公开内容。它可能适合私密社区、付费内容预览或不希望 AI 系统使用内容的发布者。但也要现实一点:公开网页仍可能通过外链、搜索摘要、缓存或第三方引用被间接发现。
robots.txt 是规则书,不是保险柜
robots.txt 很有用,因为它向爬虫表达访问规则。但它不是密码、付费墙,也不是单独的法律合同。负责任的爬虫可能遵守它,不良爬虫可能无视它。
如果某个页面必须保密,不要依赖 robots.txt。应该使用登录权限、移除公开 URL,或放到真正的访问控制后面。
llms.txt 如何配合策略
llms.txt 可以让你的意图更清楚。如果你选择完全开放,它可以引导 AI 系统优先阅读你的核心页面。如果你选择性开放,它可以说明站点允许范围和官方上下文位置。如果你选择全部禁止,也可以写公开说明,但不要在 llms.txt 里推荐那些你在其他地方禁止访问的页面。
一致性很重要。混乱配置就像门口写着”欢迎进入”,走廊里又贴着”禁止入内”,机器和人都会困惑。
发布前检查清单
发布爬虫规则前,可以问自己:
- 哪些 AI 系统对我的受众有价值?
- 我的内容是否希望被引用、摘要或发现?
- 有没有绝对不应该公开的页面?
robots.txt、llms.txt和 sitemap 是否表达了同一个策略?- 我能不能每隔几个月复查一次?
对多数小型技术站来说,完全开放或清晰记录的选择性开放,比维护一大串复制来的黑名单更可靠。
常见爬虫名称需要复查
爬虫名称会变化,所以任何名单都只能当作起点。站长常见会检查的 AI 相关名称包括 OpenAI/ChatGPT、Anthropic/Claude、Google 相关 AI 爬虫、Perplexity、Meta AI、Apple 相关 AI 爬虫,以及其他公开文档中列出的 AI agents。
不要盲目复制网上的屏蔽列表。一条复制来的规则可能误伤你想允许的爬虫,也可能根本没有覆盖你真正想限制的对象。
更稳妥的维护习惯
建议给爬虫策略留一份简短变更记录,不一定公开。例如:”2026 年 6 月:从完全开放改为选择性开放;允许 X 和 Y;限制 Z。” 未来排查问题时会很有用。
AI 爬虫管理不是一次性开关,更像维护门禁:规则简单、标签清楚、定期检查。