其他 Sitemap 格式
Sitemap 协议可让您向搜索引擎提供有关您网页的详细信息,而且我们也建议您使用该协议,因为除网址之外,您还可以提供更多网页信息。不过,除了 XML 协议,我们还支持 RSS 供稿和文本文件,这两者所能提供的信息比较有限。
联合供稿
您可以提供 RSS(真正简单联合供稿系统)2.0、Atom 0.3 或 1.0 供稿。通常,只有您的网站已有联合供稿时才能使用此格式。请注意,此方法可能无法让搜索引擎了解您网站中的所有网址,因为供稿可能只提供最近访问的网址的信息,但搜索引擎仍然可在正常抓取过程中使用该信息通过跟踪供稿中的网页内部链接找到您网站的其他网页。请确保该供稿位于您希望搜索引擎抓取的最高一级目录。搜索引擎从供稿中抽取的信息如下:
<link> 字段 – 表示网址
修改日期字段(RSS 供稿源的 <pubDate> 字段和 Atom 供稿源的 <modified> 日期)– 表示每个网址上次修改的时间。可以根据需要使用修改日期字段。
文本文件
您可以提供纯文本文件,其中每行包含一个网址。此文本文件需要遵循以下指南:
文本文件每行都必须有一个网址。网址中不能有换行。
您必须指定完整的网址,包括 http。
每个文本文件最多可包含 50,000 个网址,并且不得超过 10MB(10,485,760 字节)。如果网站所包含的网址超过 50,000 个,则可以将列表分割成多个文本文件,然后分别添加每个文件。
文本文件需使用 UTF-8 编码。在保存文件时您可指明此项(例如,在记事本中,此项会在“另存为”对话框中的编码菜单中列出)。
文本文件不应包含网址列表以外的任何信息。
此文本文件不应包含任何标题或注脚信息。
如果愿意,您可以使用 gzip 压缩 Sitemap 文本文件,以减少带宽要求。
您可以随意为此文本文件命名。请检查并确保您的网址符合 RFC-3986 标准中的 URI 规定和 RFC-3987 标准中的 IRI 规定。
您应该将文本文件上传至您希望搜索引擎抓取的最高级别的目录,并确保在文本文件中未列出位于更高级别目录的网址。
文本文件的示例条目如下所示。
http://www.example.com/catalog?item=1
http://www.example.com/catalog?item=11