很多站长会把几个根目录文件搞混,因为它们看起来都像”给机器看的说明”。robots.txt、sitemap.xml 和 llms.txt 通常都和网站根目录有关,但它们回答的是不同问题。
一句话版本:
- robots.txt 说明哪些爬虫可以访问、哪些不建议访问。
- sitemap.xml 列出希望搜索引擎发现的页面。
- llms.txt 向 AI 系统解释网站的核心上下文。
它们不是互相替代的关系,更像同一栋楼门口的三块路牌。
robots.txt:访问规则牌
robots.txt 是最老也最实用的门口说明。它可以按 User-agent 给爬虫设置规则。例如允许大部分爬虫,限制某些目录,或针对特定机器人写规则。
AI 爬虫权限控制通常也从这里开始。如果你想只允许某些 AI 爬虫、限制其他爬虫,robots 规则通常是配置的一部分。但要记住,robots.txt 不是安全系统。真正敏感的内容不应该公开放在网站上。
sitemap.xml:URL 地图
sitemap.xml 是页面地图。它帮助搜索引擎发现页面,特别适合新站、大站,或者内部链接不容易覆盖到的页面。
但 sitemap 不等于收录保证。页面质量低、被阻止、重复严重或技术错误明显时,sitemap 不能把问题变没。
对新网站来说,干净的 sitemap 仍然非常值得做,因为它给抓取系统提供了一份公开 URL 清单。
llms.txt:AI 上下文说明
llms.txt 更偏向 AI 读取。它的目标是用简洁结构告诉语言模型:网站标题是什么、站点摘要是什么、哪些链接最重要、是否有更完整的上下文文件。
如果说
sitemap.xml表达的是”这些页面存在”,那么llms.txt表达的是”这些页面最能帮助你理解我们”。
这个区别很关键。博客归档页可能有几百篇文章,但真正能说明网站价值的,往往是入门指南、产品文档、FAQ 和几篇核心文章。
三个文件如何配合
一个面向 AI 友好的技术网站,可以这样组织:
robots.txt根据你的策略允许或限制爬虫。sitemap.xml列出希望被发现的公开页面。llms.txt标记最能解释网站的页面。llms-full.txt提供更完整的背景资料。
它们背后应该是同一套内容策略。不要在 robots.txt 里屏蔽某个页面,又在 llms.txt 里推荐它。也不要为了显得内容多,把价值很低的页面塞进所有文件。
一个实际例子
如果你的网站是 llms.txt 生成器,推荐链接可以包括:
- 首页生成器。
- AI 爬虫相关博客分类。
robots.txt和llms.txt对比文章。- FAQ 页面。
- 隐私政策和联系页面,用来建立基础信任。
这样真人访客和机器读取都会更顺畅。
常见错误
尽量避免这些问题:
- 把
llms.txt当成关键词堆砌文件。 - 把所有 URL 都加进去,而不是筛选真正重要的 URL。
- 一边屏蔽 AI 爬虫,一边期待 AI 工具引用网站。
- 修改重要链接后忘记更新文件。
- 以为这些文件能保证流量。
最稳妥的思路很简单:先让网站内容准确、清晰、可靠,再用这些文件把事实描述出来。