了解好搜索引擎排名的原理,可以帮助我们从深层次的了解SEO优化的必要性和可以操作的空间,那么搜索引擎排名的原理是什么呢?
一、爬行、抓取、收集数据
搜索引擎蜘蛛工作过程:页面出发,不断的抓取链接—发现链接—抓取,同时将抓取到数据存入数据库中。
搜索引擎蜘蛛的遵行基本的爬行策略:广度优先、深度优先。
索引擎派出一个能够在网上发现新网页并抓取文件的程序,这个程序通常称之为“蜘蛛”。搜索引擎从已知的数据库出发,就像正常用户的浏览器一样访问这些网页并抓取文件。搜索引擎会跟踪网页中的链接,访问更多的网页,这个过程就叫“爬行”。这些新的网址会被存入数据库等待抓取。
互联网是由相互链接的页面组成,在理论上,蜘蛛是可以抓取到互联网上所有的页面。但是实际运行时受带宽资源、时间等硬件条件的限制,搜索引擎蜘蛛只能尽全力的多发现页面。为了提高爬取效率,蜘蛛会优先从网站导航、分类目录这样的聚合页面出发。在进入网站之前,蜘蛛会优先读取网站根目录下的robots文件,只抓取robots文件允许访问的页面。
二、索引
搜索引擎将爬行和抓取的页面文件分解、分析,并以巨大表格的形式存入数据库,这个过程即是“索引”。
蜘蛛抓取到的页面并不能直接作为排名结果放出,需要经过去除标签、提取有效内容。这是一个极其复杂的过程,我们可以简单的理解为蜘蛛用分词算法去除页面中的停止词、重复词,找出页面中的特征文字;使用特定的编号顺序,建立这些关键词与页面的索引,形成索引词库。一般来说,建立索引有两种方式:正向索引、倒排索引,配合使用时排序结果更为精确。
三、终端显示排名
搜索引擎在接收到用户输入的搜索词后,需要对搜索词做一些处理,才能进入排名过程。搜索词处理包括中文分词、去停止词、指令处理、拼写错误矫正和整合搜索触发等。
用户在搜索引擎内输入需求关键词时,搜索引擎会关键词进行分词、矫正错误、去噪等操作,最终的结果触发数据库中的关键词索引,搜索结果按照既定的排名规则呈现出来。