- robots.txt放在网站根路径 /robots.txt
禁止拉取某些目录
User-agent: *Disallow: /static/Disallow: /css/Disallow: /admin/Disallow: /images/
允许网络爬虫访问我们网站的某个目录中的某些特定网址
User-agent: *Allow: /css/myAllow: /admin/htmlAllow: /images/indexDisallow: /css/Disallow: /admin/Disallow: /images/
禁止所有搜索引擎访问网站的所有部分
User-agent: *Disallow: /
仅允许访问某目录下某个后缀的文件
User-agent: *Allow: .html$Disallow: /
禁止搜索引擎抓取网站上的图片
User-agent: *Disallow: .jpg$Disallow: .jpeg$Disallow: .gif$Disallow: .png$Disallow: .bmp$