关于搜索引擎收录文章和排名一些最基本的原理

正在下载......

最新会员：[ canadaesc]

首页

论坛

上一主题| 下一主题

[1]

共 1 页

fyudshtk

威望: +0

会员头衔:

会员级别:

积分: 8

财富: 1008

文章: 4

注册时间 2014-1-14

上次到站: 2014-1-14

当前状态:

时间: 2014年1月14日 19:44:46

标题 : 关于搜索引擎收录文章和排名一些最基本的原理

字体: 【大中小】

经过在佐卡伊珠宝网的工作，经过2个月的文章编辑及书籍，资料查询，分享SEO文章编辑。

文章收录即搜索引擎工作原理

第一部：吸引蜘蛛

方法：导入链接（即友链，外链，外部锚文本，等等）

页面更新度（频繁的更新会让蜘蛛频繁的爬行）

网站的权重（权重越高，蜘蛛的爬行会更有深度，因此收录更多）

第二部：跟踪链接（蜘蛛的爬行）

原理：深度爬行和广度爬行

简单描述：

深度爬行即深度爬行为纵向爬行

广度爬行即横向爬行

第三部：文件存储至地址库

地址库存储被发现还没有抓取的页面以及已经被抓取的页面

存储方式：存入的数据跟浏览器得到的HTML是完全一样的，并且每个URL 都有独特的文件编号

以上均为蜘蛛参与活动，容易理解

以下则为搜素引擎内部工作，具体原因只有代码人员知道

第四部：预处理（即将蜘蛛取到的数据也就是存放在地址库的数据进行处理）

1：提取文字

就是去掉代码得到中文

这也是文章收录最好是静态的原因，他会去掉动态的JS ，FLASH 代码，如果这些代码过多，则会需要时间相对来说较长，影响收录。

去掉代码的过程中会提取一些特殊的文字信息代码：

如 meta ( 网页中的关键字 ) ，图片代替的问题（alt =”xxx”）链接锚文字。

2：中文分词

分词是中文搜索引擎特有的（百度，360，搜狗等）

比如：

减肥方法将被分为：减肥和方法

3：去停止词

停止词：”的” “地” “啊” “哈” “呀” “从而” “却” 等等

这也是防止很多人通过对别人文章的顺序的重新编排进行伪原创。

4：消除噪声（因为排名的时候不使用噪声内容）

消噪方法：通过HTML 对页面进行分块，区分页面、正文、页脚、等区域，在网站上大量重复出现的区块属于噪声。

5：去重

指纹算法（对页面特征关键词计算指纹，主题内容最具代表性的关键词）

6：正向索引

7：倒排索引

8：链接关系计算

第五部分：排名

当用户输入一个搜索词之后，搜索引擎会对其做一些处理，才进去排名过程

一：搜索词处理

1：中文分词（与页面分词原来相同）

2：去停止词（和索引一样）

3：指令处理搜索 “减肥方法” 只寻找既包含减肥又包含方法的页面。

二：文件匹配

即根据倒排索引匹配文件（用户搜索“关键词1”和“关键词7”，程序会在倒排索引中找到包含“关键词1”和“关键词7”的所有页面，经过计算找到包含“关键词1”和“关键词7”的所有页面。）

三：初始子集的选择

搜索出来的页面成千上万，搜索引擎只计算1000个页面（因为搜索引擎最多现实100页）的相关性就好了。

四：计算相关性

1：关键词常用程度

2：词频密度

3：关键词位置及形式

4：关键词距离

5：链接分析及页面权重

五：排名过滤算法（通过算法过滤掉有作弊嫌疑的页面）

六：排名显示（我们最终看到的）

七：搜索缓存（关键词的搜索很大一部分是重复的，为了避免资源浪费搜索引擎会把最常见的搜索词存入缓存，提高效率）

--------------------------------------
1

本贴地址：

分享到:

[1]

共 1 页

跳转到:

	快速回复
内容： HTML标签：不可用 UBB标签：不可用贴图标签：可用表情字符转换：可用	帐号：密码：使用账号和密码即可回复
	(操作提示:按 CTRL+回车，可直接发表) 显示签名留言通知作者