经过在 佐卡伊珠宝网的工作,经过2个月的文章编辑及书籍,资料查询,分享SEO文章编辑。
文章收录即搜索引擎工作原理
第一部: 吸引蜘蛛
方法:导入链接(即友链,外链,外部锚文本,等等)
页面更新度(频繁的更新会让蜘蛛频繁的爬行)
网站的权重(权重越高,蜘蛛的爬行会更有深度,因此收录更多)
第二部:跟踪链接(蜘蛛的爬行)
原理:深度爬行和 广度爬行
简单描述:
深度爬行 即深度爬行为纵向爬行
广度爬行 即 横向爬行
第三部:文件存储至地址库
地址库存储 被发现还没有抓取的页面以及已经被抓取的页面
存储方式:存入的数据跟浏览器得到的HTML是完全一样的,并且每个URL 都有独特的文件编号
以上均为蜘蛛参与活动,容易理解
以下则为搜素引擎内部工作 ,具体原因只有代码人员知道
第四部:预处理(即将蜘蛛取到的数据 也就是存放在地址库的数据进行处理)
1:提取文字
就是去掉代码得到中文
这也是文章收录最好是静态的原因,他会去掉动态的JS ,FLASH 代码,如果这些代码过多,则会需要时间相对来说较长,影响收录。
去掉代码的过程中会提取一些特殊的文字信息代码:
如 meta ( 网页中的关键字 ) ,图片代替的问题(alt =”xxx”)链接锚文字。
2:中文分词
分词是中文搜索引擎特有的 (百度,360,搜狗等)
比如:
减肥方法 将被分为:减肥 和 方法
3:去停止词
停止词:”的” “地” “啊” “哈” “呀” “从而” “却” 等等
这也是防止很多人通过对别人文章的顺序的重新编排 进行伪原创。
4:消除噪声(因为排名的时候不使用噪声内容)
消噪方法:通过HTML 对页面进行分块,区分页面、正文、页脚、等区域,在网站上大量重复出现的区块属于噪声。
5:去重
指纹算法(对页面特征关键词计算指纹,主题内容最具代表性的关键词)
6:正向索引
7:倒排索引
8:链接关系计算
第五部分:排名
当用户输入一个搜索词之后,搜索引擎会对其做一些处理,才进去排名过程
一:搜索词处理
1:中文分词 (与页面分词原来相同)
2:去停止词 (和索引一样)
3:指令处理 搜索 “减肥方法” 只寻找既包含减肥又包含方法的页面。
二:文件匹配
即根据倒排索引匹配文件(用户搜索“关键词1”和“关键词7”,程序会在倒排索引中找到包含“关键词1”和“关键词7”的所有页面,经过计算找到 包含“关键词1”和“关键词7”的所有页面。)
三:初始子集的选择
搜索出来的页面成千上万,搜索引擎只计算1000个页面(因为搜索引擎最多现实100页)的相关性就好了。
四:计算相关性
1:关键词常用程度
2:词频密度
3:关键词位置及形式
4:关键词距离
5:链接分析及页面权重
五:排名过滤算法(通过算法过滤掉有作弊嫌疑的页面)
六:排名显示(我们最终看到的)
七:搜索缓存 (关键词的搜索很大一部分是重复的,为了避免资源浪费搜索引擎会把最常见的搜索词存入缓存,提高效率)
|