llms.txt、robots.txt、sitemap.xml 有什么区别？

很多站长会把几个根目录文件搞混，因为它们看起来都像”给机器看的说明”。robots.txt、sitemap.xml 和 llms.txt 通常都和网站根目录有关，但它们回答的是不同问题。

一句话版本：

它们不是互相替代的关系，更像同一栋楼门口的三块路牌。

robots.txt：访问规则牌

robots.txt 是最老也最实用的门口说明。它可以按 User-agent 给爬虫设置规则。例如允许大部分爬虫，限制某些目录，或针对特定机器人写规则。

AI 爬虫权限控制通常也从这里开始。如果你想只允许某些 AI 爬虫、限制其他爬虫，robots 规则通常是配置的一部分。但要记住，robots.txt 不是安全系统。真正敏感的内容不应该公开放在网站上。

sitemap.xml 是页面地图。它帮助搜索引擎发现页面，特别适合新站、大站，或者内部链接不容易覆盖到的页面。

但 sitemap 不等于收录保证。页面质量低、被阻止、重复严重或技术错误明显时，sitemap 不能把问题变没。

对新网站来说，干净的 sitemap 仍然非常值得做，因为它给抓取系统提供了一份公开 URL 清单。

llms.txt 更偏向 AI 读取。它的目标是用简洁结构告诉语言模型：网站标题是什么、站点摘要是什么、哪些链接最重要、是否有更完整的上下文文件。

如果说 sitemap.xml 表达的是”这些页面存在”，那么 llms.txt 表达的是”这些页面最能帮助你理解我们”。

这个区别很关键。博客归档页可能有几百篇文章，但真正能说明网站价值的，往往是入门指南、产品文档、FAQ 和几篇核心文章。

一个面向 AI 友好的技术网站，可以这样组织：

它们背后应该是同一套内容策略。不要在 robots.txt 里屏蔽某个页面，又在 llms.txt 里推荐它。也不要为了显得内容多，把价值很低的页面塞进所有文件。

如果你的网站是 llms.txt 生成器，推荐链接可以包括：

这样真人访客和机器读取都会更顺畅。

尽量避免这些问题：

最稳妥的思路很简单：先让网站内容准确、清晰、可靠，再用这些文件把事实描述出来。