了解搜索引擎抓取的原理-seo技术分享

2019-08-27 07:55:58 / 羽忆教程网 / 46 浏览

搜索引擎都有一个对网页进行抓取的原理,具体是怎么进行抓取的呢?抓取了页面就有排名吗?下面小白为您介绍。

先从搜索引擎的蜘蛛(网页爬虫)说起,蜘蛛是一种按照一定的规则,不断循环抓取互联网上信息的程序或脚本,也可以称之为机器人。而在国内三大搜索引擎对蜘蛛也有不同叫法。百度:百度蜘蛛(Baiduspider)、360:360蜘蛛(360Spider)、搜狗:Sogou蜘蛛(Sogouspider)。

搜索引擎

搜索引擎抓取的原理和步骤

了解了搜索引擎抓取的程序-蜘蛛后,我们就可以分析搜索引擎抓取的原理了。

1、抓取

蜘蛛在对网站进行抓取时会采取两种抓取策略:广度优先策略和深度优先策略。广度优先是蜘蛛会先抓取起始网页中的所有链接后,再选择其中一个链接抓取此网页中的所有链接;深度优先就是蜘蛛会从起始页开始,一个链接一个链接跟踪下去,处理完这条线路后再转入下一个起始页。而搜索引擎会混合使用这两种策略对你的网站进行抓取。

蜘蛛抓取的内容包括链接、文本、图片、视频、CSS、JS、iframe框架。而这里面css、js、iframe框架对于蜘蛛识别是不太友好的。

2、过滤

蜘蛛将网页进行抓取后会将其存入一个原始页面数据库中,在这里搜索引擎会进行过滤,将欺骗用户的页面(文不对题)、死链接页面(打不开的页面)、空白页面(页面没内容)、毫无价值的页面过滤,将这些页面全部都摒弃掉。而将能够满足用户需求的高质量页面保留下来。

搜索引擎

3、建立索引

搜索引擎过滤后留下来的高质量页面就会对其建立索引。搜索引擎建立索引时会对网站的内容分类整理;并计算链接关系,包括优质外链和垃圾外链;对特殊文件进行处理(txt文件、pdf文件、jpg文件);最后根据关键词识别存储,这样就完成了索引流程。

4、输出结果

当索引建立完成后,用户搜索关键词就会触发搜索引擎的关键词关键库,并将符合条件的搜索结果展示到搜索结果页(SERP)。

以上就是小白为你介绍的搜索引擎抓取网站的原理了,希望对您有所帮助。


相关标签: 搜索引擎 收录
扫码分享:
二维码

羽忆免费资源教程网

作者:小白

QQ:1036575429

SEO教程文章统计:76 篇

web前端教程文章统计:1 篇

python教程文章统计:9 篇

IT免费资源文章统计:2 篇

互联网资讯文章统计:6 篇

邮箱:1036575429@qq.com(欢迎投稿)

网站地图