导语:关于解析抽取是有两方面的,一方面是url解析,另一方面是web页面解析,今天笔者讲解的是url解析,另一方面可以关注笔者微信“营销小能手”...

第一,url长度

url长度要试中,长度不要超过1024个字节,如果超出这个长度,那么百度会对这个url进行截断处理,很可能会造成网页抓取不成功。

第二,爬虫黑洞

简单的来说就是,百度爬虫通过follow去了你的网页,而在你的网页里面没有一个follow的极限。

另外一种情况,就是有一些网站,每次进入后,也就是刷新一下导导航都是不一样的,也就是每次在url后面都调用了随机的参数,这样会造成一种后果,就是每次爬虫去都会发现一个新连接这样百度爬虫会永远都抓不完,而百度对于这种永远都抓不完的站点,那么就会进行降权处理,同时也会减少抓取次数。

还有就是#号的使用,一般情况下#后面加的参数都是没用用,所以去掉#号和加上#号访问的网页本应该是一个网页。而总会有一些人或者一些网页,会出现一些特殊的设置,就是加上#和不加分别是两个网页,而百度这样目前情况是当follow到一个url时,发下有#,它会连同符号和后面的参数都去掉,所以会造成这样设置的网页无法被百度抓取到。所以站点在最初设置时要谨慎设置。

第三,Sitemap

这个目前百度站长平台已经全面开放了,百度也是建议站点提交Sitemap链接,因为这个比自然follow要快的多。当然单个Sitemap链接文件要限制在10M之内,如果超出这个大小,百度会给自动的截断,超过的部分百度是不会进行抓取的,同时还有一个要特别注意的,就是这个Sitemap要实时的有规律的更新,如果一阵有一阵没有,那么后期百度可能会把这个Sitemap抛弃掉的。

还有一个方面,提交Sitemap链接对安装了百度站内搜索的网页,也是有很大的帮助的。提高站内搜索的准确性。

第四,归一化

这个seo都很清楚,就是相同内容的网页,一定要进行url的同一,一般可以进行301调整,或者使用canonical标签。

还有一种网站,二级域名和主域直接内容一样,只是一个是www的一个是地区的,那么百度会直接按照主域的进行收录,抛弃地区的,因为主域权重等各方面会更高一些。