爬虫知识

月伴飞鱼 2024-08-01 10:58:37
基础知识
支付宝打赏 微信打赏

如果文章对你有帮助,欢迎点击上方按钮打赏作者!

robots.txt协议

用于指示网络爬虫如何与网站上的内容进行交互的协议。

这个文件被网站管理员放置在网站的根目录下:

  • 用于告知爬虫哪些部分的网站是可以被抓取的,哪些是不被允许的。

如:https://www.baidu.com/robots.txt

User-agent: *
Disallow: /private/
Disallow: /tmp/

user-agent:googlebot(只允许谷歌蜘蛛爬)

User-agent: * 表示对所有爬虫有效,而 Disallow 行指出了不允许爬虫访问的目录。

支付宝打赏 微信打赏

如果文章对你有帮助,欢迎点击上方按钮打赏作者!