站点爬取

站点爬虫:  下载给定域名或者网址里的所有网页.

开始爬取站点
起始地址 (头部必须有
http:// https:// ftp:// smb:// file://)

empty
网址链接表
网址地图

载入域中所有文件
仅载入给定网址子路径中文件
不超过 文件

提示

  • 爬取速度限制

    每秒最多从同一主机中载入两个页面(每分钟不超过120个文件)以限制目标主机负载.
  • 目标平衡器

    对于不同主机的第二次爬取, 会上升到每分钟最多240个文件, 因为爬虫会自动平衡所有主机的负载.
  • 高速爬取

    当目标主机很多时, 用于多个主机(或站点)的'浅爬取'方式, 会增加每分钟页面数(ppm). 对应设置专家模式起始爬取选项.
  • 定时器向导

    可以使用API向导改变或删除爬取定时器.