格式

<?xml version="1.0" encoding="utf-8"?>
<!-- XML文件需以utf-8编码-->
<urlset>
<!--必填标签-->
    <url>
        <!--必填标签,这是具体某一个链接的定义入口,每一条数据都要用<url>和</url>包含在里面,这是必须的 -->
        <loc>http://www.yoursite.com/yoursite.html</loc>
        <!--必填,URL链接地址,长度不得超过256字节-->
        <lastmod>2009-12-14</lastmod>
        <!--可以不提交该标签,用来指定该链接的最后更新时间-->
        <changefreq>daily</changefreq>
        <!--可以不提交该标签,用这个标签告诉此链接可能会出现的更新频率 -->
        <priority>0.8</priority>
        <!--可以不提交该标签,用来指定此链接相对于其他链接的优先权比值,此值定于0.0-1.0之间-->
    </url>
    <url>
        <loc>http://www.yoursite.com/yoursite2.html</loc>
        <lastmod>2010-05-01</lastmod>
        <changefreq>daily</changefreq>
        <priority>0.8</priority>
    </url>
</urlset>

站点地图是一种可以为百度蜘蛛爬行网站时指示出信息资源方位并具有导航功能的一个工具,将网站中的关键信息以可视化展现在搜索引擎面前,一般关键信息分为信息获取、信息检索、信息表示以及信息关联这四个方面,就是将这些内容以一种类似于地图的形式,将网站的信息罗列出来并附带上对应的链接,为用户与百度抓取蜘蛛提供网站的主体信息以及准确信息入口的工具,所以被通俗称之为站点地图。

网站地图的可视化是它非常突出的一个特点,虽然我们常见的网站地图内容都是以文字表达的,但是它是以一个地图的展现形式出现的,可以清晰明了的表达出各个页面之前的关系。

当用户点击开站点地图之后,可以使用户对网站的信息一目了然,并且在站点地图中所有对应的文字都会配上对应的链接,使用户可以点击链接从而进入自己想要进的栏目,使用户更加精准的找到自己想要的信息。

站点地图有这么一个功能,就是会跟随网站上的内容信息,实时进行一个地图更新,它随着网站变动而变动,与网站上整体内容保持一致,使用户在站点地图中随时获得最新网站信息。

Robots协议也叫爬虫协议或者机器人协议,robots协议可不是一个指令,而是一个txt文本,robots.txt是百度搜索蜘蛛来到网站时第一个需要查看的文件,蜘蛛将根据robots.txt文件来判断网站上哪些内容可抓取,哪些内容是不可被抓取的。

robots.txt文件来把网站上想要被搜索引擎抓取或者不想被搜索引擎抓取,
通过robots文件表达给百度蜘蛛,百度蜘蛛也会根据robots文件进行爬行抓取网站。

网站地图,又叫站点地图,一个列出了网站上所有页面地址的清单文件,一种给搜索引擎看的,一种给用户看的,
前者帮助搜索引擎更好地收录你的网站,
后者帮助用户更好的了解你的网站整体结构、更快的找到他们想要找的内容。

站点地图格式
txt、xml、html,大部分用xml格式

txt格式

简单,较少采用,示例:
https://b.xn--xu0a.cn/index.php/archives/749/
https://b.xn--xu0a.cn/index.php/archives/744/
https://b.xn--xu0a.cn/index.php/archives/720/
注意事项:

文本文件每行都必须有一个网址。网址中不能有换行。
不应包含网址列表以外的任何信息。
须书写完整的网址,包括 http。
每个文本文件最多可包含 50,000 个网址,并且应小于10MB(10,485,760字节)。
如果网站所包含的网址超过 50,000 个,则可将列表分割成多个文本文件,然后分别添加每个文件。
文本文件需使用 UTF-8 编码或GBK编码。

xml格式

示例sitemap.xml:

<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
    <url>
        <loc>https://b.xn--xu0a.cn/index.php/archives/749/</loc>
        <lastmod>2022-11-22T00:00:16+08:00</lastmod>
        <changefreq>daily</changefreq>
        <priority>1.0</priority>
    </url>
    <url>
        <loc>https://b.xn--xu0a.cn/index.php/archives/744/</loc>
        <lastmod>2022-11-22T00:00:16+08:00</lastmod>
        <changefreq>daily</changefreq>
        <priority>0.8</priority>
    </url>
</urlset>

loc表示完整网址,必填项,长度不得超过256字节
lastmod表示本网页最后修改时间,必须是ISO-8601时间格式,
yyyy-MM-ddTHH:mm:ss+08:00,+08:00应该表示是东八区;
changefreq 更新频率,可选值:
always、hourly、daily、weekly、monthly、yearly、never
(总是,每小时,每天,每周,每月,每年,从不)
priority 指定此链接相对于其他链接的优先权比值,可选值 0.0-1.0,
一般来说网站首页1.0,然后二级三级页面依次降低,
以上4项中,除了loc是必填项之外,其它3个都不是必须的,但最好都写上。

一个sitemap文件包含的网址不得超过 5 万个,且文件大小不得超过 10 MB。
如果sitemap超过了这些限值,请拆分为几个小的sitemap。
这些限制条件有助于确保网络服务器不会因提供大文件而超载。
一个站点支持提交的sitemap文件个数必须小于5万个

百度提交站点地图
百度提交sitemap地址:http://zhanzhang.baidu.com/linksubmit/index

参考
平台工具使用手册_网站验证_搜索学堂_百度搜索资源平台
https://ziyuan.baidu.com/college/courseinfo?id=267&page=2

网站地图(站点地图)详细介绍以及如何制作 - 走看看
http://t.zoukankan.com/liuxianan-p-make-sitemap.html

站点地图与robots文件是什么 - 知乎
https://zhuanlan.zhihu.com/p/392691016