乐通lt118娱乐

新 闻 资 讯

    百度spider专家现场QA集锦:抓取建库篇

    来源:上海乐通lt118娱乐网络 日期:2018-05-19 00:31 点击:

      问:为什么屎布量像坐过山车一样的,另有为什么有些网页今天在明天就没了?
      答:百度会周期建库,且每个库的收录量是恒定的,你老是有新增,肯定会再从库里淘汰一些,横竖总是坚持那个库是满的。在建库的历程中,你会感受有波动。具体的怎么筛,哪个页面会留下哪个页面会淘汰,这个战略是有许多的,他随着时间的变革,收录的标准战略也是在爆发微调。
      问:我们站点使用CDN加速会不会比较容易造成蜘蛛无法抓取?因为有时候修改掉他绑定的什么工具。
      答:如果要修改掉一定要通知到上一级,现在不保存这个问题,现在你如果修改掉也可以解析掉,之前可能会保存这个问题。
      问:你们百度自己也有一个CDN加速,对抓录排名有没有影响?
      答:在使用CDN加速这个问题上,我们对所有站点一视同仁。但我建议你使用技术能力强的CDN效劳商,包管站点的稳定和速度,百度会更喜欢。

      问:适才您说IP上的站点数不可太多,那CDN这种情况怎么办?
      答:CDN的情况另说,如果我们识别出来是CDN的话不会受站点数量的影响,如果你是提供独立IP的话会有这样一些问题。

      问:照旧IP上站点数量的问题,如果是主域跟二级域名呢?也受数量限制?
      答:我说的是独立域名。虽然质量比较好的二级域名也可以认为是独立域名
      问:多个域名,他有相同的一些内容,怎么建库?
      答:如果是多域名在同一个主域下面有相同内容的话,不可能所有都建库,并且被建库的那个可能不是你希望的那个,所以尽量不要有相同的内容。
      问:适才讲的IP如果是多域名的话,好几百个IP域名,现在我们也用了CDN,凭据适才的说法,单个IP最多抓几多?1000万是说对站点照旧对IP?
      答:对IP,但1000万是我举例,不是实际的数据,这个数据不会分享出来的
      问:现在我的网站被许多蜘蛛爬,我想只让百度蜘蛛爬,百度蜘蛛IP几多?能设白名单么?
      答:百度蜘蛛IP是不绝变的,现在网上简直有一些白名单的说法,暂时是有效的,但不包管今后不会变,所以建议站点照旧通过ua进行判断,我们百度站长平台上有相关的文章,你可以找一下。
      问:如果我写robots只想禁掉动态链接的话,会不会影响动态参数前面正常链接的抓取?
      答:不会的,你原来的页面还在,肯定会抓。
      问:好比我们一个域名,我们想把带?号的url全部禁掉,首页我们不要禁掉,怎么弄?
      答:?前面有个*,后面再有个*就可以了。
      问:我想了解,如果我现在收录有5万,或许多长时间才华把我原来屎布5万重新抓取一遍?
      答:差别站点欠好说,一个是你站点做的很好,知名度很响更新很快质量很好就会快;如果你的站点默默无闻,孝敬很少,可能就会很慢。
      问:就是差未几的情况,或许。
      答:这个没有人能估出来。
      问:百度站长平台上有数据提交的工具,我们实时提交,你们也会实时抓取吗?
      答:不会,他会有一层判断。现在只是通知你提交乐成,后面什么时候抓,什么时候建库没有,我们正在研究要不要把这个分享出来。
      问:我网站有一些列表页,都没有链接,担心百度抓不到
      答:现在百度站长平台的站内搜索工具有一个绿色收录通道,在那里提交种子页,我们就知道的。
      问:提交种子页面必须要用站搜?
      答:是的。
      问:如果说页面里url特别多的话,蜘蛛会不会有选择性的进行抓取?
      答:不会,他都会一个不漏给你提出来,但会把JS、CSS这样的链接给过滤掉。但请注意,全部抓取过来之后会进行筛选,并不是所有都会建库。
      问:现在许多网站都有自己的站内搜索,都会爆发站内搜索结果页,百度不喜欢搜索结果页的话,我们用这个会不会对我们有影响?只是不喜欢照旧对我们网站会有处分
      答:蜘蛛会去抓,抓完之后重要是提取里面的链接。如果只有一两条这样的页面质量欠好问题不大,如果整体质量较差,有可能受随处分。
      问:新出的时效性文章其时没有被收录,后期是否还会被收录?
      答:会
      问:站点每天最高爬虫几多次?
      答:这个其实说欠好,有的站点我们一天会抓一两千万,有的站点只抓几个、几十个,看你的规模和质量,并且这个抓取量也是会凭据网站的情况进行调解的。

sitemap网站地图