今天我们碧鑫设计给大家分享搜索引擎工作过程中一个非常重要的阶段“收录预处理”,也就是大家常说的索引。当用户在搜索引擎中输入搜索词之后,搜索引擎并不是根据用户的搜索词然后来计算页面给予排名的,而是事先在爬行和抓取页面的时候就进行了预处理,要不然也不可能在很短时间内根据搜索词展现出排名。
首先,搜索引擎会对爬行的页面进行筛选和提取文字信息,以便进行排名处理,通过搜索引擎的这个动作,我们知道在页面中添加meta信息,图片的alt标签,锚文本的文字设定,a标记中的title标签还是非常有必要的。
紧接着搜索引擎会对筛选出来的这一大堆文字进行分词处理,以此来判定哪些字可以组成一个词,搜索引擎的分词过程一般有两种分法,一个是通过搜索引擎数据库中已经创建好的词典,另一种是根据日常统计,不过为了提高分词的效率,通常都是两种方法并行的。
通过词典进行分词,是指搜索引擎根据自己创建的词典,跟网页中提取的文字进行匹配,如果匹配成功的话,就算分出了一个词,而根据日常统计则是指搜索引擎对网络上提取的文本做了大量的分析,哪些字经常出现在一起,那么就会把它判定为一个词组,不过搜索引擎更喜欢的是比较长的最大匹配词组,也就是我们常说的长尾关键词,因为这样显示出来的搜索结果将会更加精确。关于搜索引擎是如何进行分组的,大家可以参考网站快照中带颜色的词,这里说明这只是一个参考,因为网站快照所能提供的分词信息很少,有时也并不能完全表达出搜索引擎的意愿。而我们在这个环节能进行优化的就是,通过页面标题,H1标签,关键词加粗的方式来提示搜索引擎,这是一个词组,同时还有强调的作用。
当搜索引擎分词完毕后,接下来要进行的工作就是去除这些词中的干扰信息,俗称“去噪”,搜索引擎去噪主要从两方面进行去噪,一个是把这些词组中一些完全跟网站主题无关的词组去掉,比如我们文章中经常包含的一些“的”,“啊”,“然而”之类的助词,感叹词和副词,进行去噪的第二步则是把网站中没有用的模块中包含的词组去掉,比如免责声明,广告字段,版权信息,分页列表等等,通过去噪后剩余的内容才是搜索引擎想要的内容。
在搜索引擎获得了有用的信息之后,是不是我们就可以通过这些内容进行网页排名了?NO!接下来的这一步,我相信是很多站长比较心痛的一个环节——去重。搜索引擎会在这些得到的内容中提取出N个最能代表页面主题的关键词,进行指数分析,如果指数显示网上已经存在大量的相同信息,搜索引擎将会进行删除操作,这也就是为什么很多站长通过复制或转载来的文章不被收录展示的原因。