1、抓取
广度优先抓取:广度优先抓取是按照网站的树形结构,对一个的层进行的抓取,如果此层没有抓取完成,蜘蛛不会进行下一层的搜索。(不要出现孤岛链接,也就是说这个链接没有栏目关系)
说明:
内容优良而独特的页面,如果您的页面内容和互联网上已存在的其他页面有高度的相似性,可能不会被收录。
链接层次较浅的页面。过深的链接层次,尤其是动态网页的链接,会被丢弃而不收录。
如果是动态网页,请控制参数的数量和URL的长度。搜狗更偏好收录静态网页。重定向次数越多的页面,越有可能被 sogou spider 丢弃。
2、过滤(PageRank)
网站的页面被抓取了并不代表一定会被收录。蜘蛛来抓取了之后,会把数据带回去,放到临时的数据库中,再进行过滤,过滤掉一些垃圾的内容或者是低质量的内容。你页面的信息如果在互联网上有大量的相同信息,搜索引擎就很有可能不为你的网页建立索引。
如果你的网站的页面顺利通过了过滤这一过程,说明页面的内容达到了搜索引擎设定的标准,页面会就会进入建立索引和输出结果这一步。
3、建立索引与输出结果
符合收录的页面之后会建立索引,我们在搜索关键词后,搜索引擎展示给我们的结果。这些结果排序是根据一系列复杂的算法来排定的。比如:页面的外链,页面与关键词的匹配度,页面的多媒体属性等。
15694520456