最新会员:[ canadaesc      
 
首页 论坛  
 
      上一主题| 下一主题
|<   <<   [1]    >>   >|     共 1 页
男 fyudshtk
威望: +0
会员头衔:
会员级别:
积分: 8
财富: 1008
文章: 4
注册时间 2014-1-14
上次到站: 2014-1-14
当前状态:
时间: 2014年1月14日 19:44:46   加为好友 阅读会员资料   发送站内短信   发送电子邮件    回复    推荐给朋友
标题 : 关于搜索引擎收录文章和排名一些最基本的原理   
                                 字体:
    
经过在佐卡伊珠宝网的工作,经过2个月的文章编辑及书籍,资料查询,分享SEO文章编辑。
文章收录即搜索引擎工作原理 
第一部: 吸引蜘蛛
方法:导入链接(即友链,外链,外部锚文本,等等)
      页面更新度(频繁的更新会让蜘蛛频繁的爬行)
      网站的权重(权重越高,蜘蛛的爬行会更有深度,因此收录更多)

第二部:跟踪链接(蜘蛛的爬行)
原理:深度爬行和 广度爬行
简单描述:
深度爬行 即深度爬行为纵向爬行
广度爬行 即 横向爬行

第三部:文件存储至地址库
地址库存储 被发现还没有抓取的页面以及已经被抓取的页面
存储方式:存入的数据跟浏览器得到的HTML是完全一样的,并且每个URL 都有独特的文件编号
以上均为蜘蛛参与活动,容易理解
以下则为搜素引擎内部工作 ,具体原因只有代码人员知道

第四部:预处理(即将蜘蛛取到的数据 也就是存放在地址库的数据进行处理)
1:提取文字
就是去掉代码得到中文
这也是文章收录最好是静态的原因,他会去掉动态的JS ,FLASH 代码,如果这些代码过多,则会需要时间相对来说较长,影响收录。
去掉代码的过程中会提取一些特殊的文字信息代码:
如 meta ( 网页中的关键字 ) ,图片代替的问题(alt =”xxx”)链接锚文字。

2:中文分词
分词是中文搜索引擎特有的 (百度,360,搜狗等)
比如:
减肥方法 将被分为:减肥 和  方法

3:去停止词
停止词:”的” “地” “啊”  “哈” “呀”  “从而” “却” 等等
这也是防止很多人通过对别人文章的顺序的重新编排 进行伪原创。

4:消除噪声(因为排名的时候不使用噪声内容)
消噪方法:通过HTML 对页面进行分块,区分页面、正文、页脚、等区域,在网站上大量重复出现的区块属于噪声。

5:去重
指纹算法(对页面特征关键词计算指纹,主题内容最具代表性的关键词)
6:正向索引
7:倒排索引
8:链接关系计算

第五部分:排名
 当用户输入一个搜索词之后,搜索引擎会对其做一些处理,才进去排名过程

一:搜索词处理
1:中文分词   (与页面分词原来相同)
2:去停止词  (和索引一样)
3:指令处理  搜索 “减肥方法” 只寻找既包含减肥又包含方法的页面。

二:文件匹配

即根据倒排索引匹配文件(用户搜索“关键词1”和“关键词7”,程序会在倒排索引中找到包含“关键词1”和“关键词7”的所有页面,经过计算找到 包含“关键词1”和“关键词7”的所有页面。)

三:初始子集的选择

搜索出来的页面成千上万,搜索引擎只计算1000个页面(因为搜索引擎最多现实100页)的相关性就好了。

四:计算相关性

1:关键词常用程度
2:词频密度
3:关键词位置及形式
4:关键词距离
5:链接分析及页面权重


五:排名过滤算法(通过算法过滤掉有作弊嫌疑的页面)

六:排名显示(我们最终看到的)

七:搜索缓存 (关键词的搜索很大一部分是重复的,为了避免资源浪费搜索引擎会把最常见的搜索词存入缓存,提高效率)


--------------------------------------
1
本贴地址:
分享到:
 

|<   <<   [1]    >>   >|     共 1 页
   跳转到:
  快速回复
内容:
  • HTML标签: 不可用
  • UBB标签: 不可用
  • 贴图标签: 可用
  • 表情字符转换:可用
  • 帐号: 密码: 使用账号和密码即可回复


    (操作提示:按 CTRL+回车,可直接发表)