robots.txt协议
用于指示网络爬虫如何与网站上的内容进行交互的协议。
这个文件被网站管理员放置在网站的根目录下:
- 用于告知爬虫哪些部分的网站是可以被抓取的,哪些是不被允许的。
User-agent: *
Disallow: /private/
Disallow: /tmp/
user-agent:googlebot
(只允许谷歌蜘蛛爬)
User-agent: *
表示对所有爬虫有效,而Disallow
行指出了不允许爬虫访问的目录。
如果文章对你有帮助,欢迎点击上方按钮打赏作者!
robots.txt协议
用于指示网络爬虫如何与网站上的内容进行交互的协议。
这个文件被网站管理员放置在网站的根目录下:
- 用于告知爬虫哪些部分的网站是可以被抓取的,哪些是不被允许的。
User-agent: *
Disallow: /private/
Disallow: /tmp/
user-agent:googlebot
(只允许谷歌蜘蛛爬)
User-agent: *
表示对所有爬虫有效,而Disallow
行指出了不允许爬虫访问的目录。
如果文章对你有帮助,欢迎点击上方按钮打赏作者!
©2019-
月伴飞鱼
|
PV 180986
|
UV 10079
微信搜索 月伴飞鱼 关注我 京ICP备2023027446号-2