2013-11-07 12:03:45 关键词:搜索引擎基本原理,SEO优化,网站优化,贵阳网站建设 毕业设计 贵阳网站建设

搜索引擎基本原理

来源: 百优资源网 作者:管理员

核心提示:搜索引擎基本原理是什么,SEO中文意译为“搜索引擎优化”,使网站迎合搜索引擎的排名规则,进而从自然搜索结果获得网站流量的技术和过程。本文对搜索引擎基本原理进行介绍。
已被点击
查看
收藏
  • 开心网
  • 人人网
  • i贴吧
分享
分享

| 服装连锁店ERP管理系统

服装连锁店ERP管理系统可以高效完成物流配送,考勤管理,工资管理,员工管理,报表管理,陈列管理等功能,是服装连锁企业理想的选择。[详细]

手动刷新 更新时间:14:08:37
---------------------------------------------

---------------------------------------------

搜索引擎基本原理

  搜索引擎基本原理是什么,SEO中文意译为“搜索引擎优化”,使网站迎合搜索引擎的排名规则,进而从自然搜索结果获得网站流量的技术和过程。本文对搜索引擎基本原理进行介绍。

     SEO优化是通过合理的手段对网站进行优化,使其易于被搜索引擎索引、对用户和搜索引擎更友好(Search Engine Friendly),进而更容易被搜索引擎收录及优先排序。因此,很多SEO技巧都是基于对搜索引擎的理解,本章将介绍搜索引擎基本原理,进而阐述SEO的观念和基本策略。

搜索引擎基本原理是什么?
     搜索引擎的工作过程大致可以分为爬行和抓取、预处理、排名三个阶段。

(1)爬行和抓取是搜索引擎工作的第一步,完成数据收集的任务。
     蜘蛛程序发出页面访问请求后,服务器返回HTML代码,蜘蛛程序把收到的代码存入原始页面数据库。搜索引擎为了提高爬行和抓取速度,都使用多个蜘蛛并发分布爬行。蜘蛛访问任何一个网站时,都会先访问网站根目录下的robots.txt文件,如果robots.txt文件禁止搜索引擎抓取某些文件或目录,蜘蛛将遵守协议,不抓取被禁止的网址。为了抓取网上尽量多的页面,搜索引擎蜘蛛会跟踪页面上的链接,从一个页面爬到下一个页面。蜘蛛程序往往采用深度优先搜索和广度优先搜索等爬行策略遍历网上所有页面。为了避免重复爬行和抓取网址,搜索引擎会建立一个地址库,记录已经被发现还没有抓取的页面,以及已经被抓取的页面。爬行和抓取完毕后,搜索引擎蜘蛛抓取的数据存入原始页面数据库。

(2)预处理阶段主要是对抓取来的页面数据进行文字提取、中文分词、索引等处理,以备排名程序调用。
     现在的搜索引擎还是以文字内容为基础。蜘蛛抓取到的页面中的HTML代码,除了用户在浏览器上可以看到的可见文字外,还包含了大量的HTML格式标签、JavaScript程序等无法用于排名的内容。搜索引擎预处理首先要做的就是从HTML文件中去除标签,提取出可以用于排名处理的网页面文字内容。分词是中文搜索引擎特有的步骤。搜索引擎存储和处理页面及用户搜索都是以词为基础的。中文分词方法主要包括两种:基于词典匹配的方法和基于统计的方法。基于词典匹配的方法是指将待分析的一段汉字与一个事先造好的词典中的词条进行匹配,在待分析汉字串中扫描到词典中已有的词条则匹配成功,或者说切分出一个单词。按照扫描方向,基于词典的匹配法可以分为正向匹配和逆向匹配。按照匹配长度优先级的不同,又可以分为最大匹配和最小匹配。将扫描方向和长度优先混合,又可以产生正向最大匹配、逆向最大匹配等不同方法。
    经过文字提取、分词后,搜索引擎得到的就是独特的、能反映页面主体内容的、以词为单位的内容。接下来搜索引擎索引程序便提取关键词,按照分词程序划分好的词,把页面转换为关键词集合,同时记录每一个关键词在页面上的出现频率、出现次数、格式、位置等信息。这样,每一个页面都可以记录为一串关键词集合,其中每个关键词的词频、格式、位置等权重信息也都记录在案。搜索引擎索引程序将页面及关键词形成词表结构存储进正向索引表。简化的正向索引表形式如表所示。

软件设计,贵阳网站建设,SEO优化

 

       如果只存在正向索引,排名程序需要扫描所有索引库中的文件,这样的计算量无法满足实时返回排名结果的要求。为此,搜索引擎会将正向索引数据库重新构造为倒排索引,把文件对应到关键词的映射转换为关键词到文件的映射,如表所示。在倒排索引中关键词是主键,每个关键词都对应着一系列文件,这些文件中都出现了这个关键词。这样当用户搜索某个关键词时,排序程序在倒排索引中定位到这个关键词,就可以马上找出所有包含这个关键词的文件。
软件设计,SEO优化,网站优化,贵阳网站建设

    链接关系计算也是预处理中很重要的一部分。现在所有的主流搜索引擎排名因素中都包含网页之间的链接流动信息。搜索引擎在抓取页面内容后,必须事前计算出:页面上有哪些链接指向哪些其他页面,每个页面有哪些导入链接,链接使用了什么锚文字,这些复杂的链接指向关系形成了网站和页面的链接权重。

(3)排名阶段主要是当用户输入关键词后,排名程序调用索引库数据,计算相关性,然后按一定格式生成搜索结果页面。
    经过搜索引擎蜘蛛抓取页面,索引程序计算得到倒排索引后,搜索引擎就准备好可以随时处理用户搜索。用户在搜索框填入关键词后,排名程序调用索引库数据,计算排名显示给用户,排名过程是与用户直接互动的。
     搜索引擎接收到用户输入的搜索词后,需要对搜索词做一些处理,才能进入排名过程。搜索词处理包括中文分词、去停止词、指令处理、整合搜索触发几方面。搜索词经过处理后,搜索引擎得到的是以词为基础的关键词集合。文件匹配阶段就是找出含有所有关键词的文件。在索引部分提到的倒排索引使得文件匹配能够快速完成。
    找到包含所有关键词的匹配文件后,还不能进行相关性计算,因为找到的文件经常会有几百万,甚至上千万个。要对这么多文件实时进行相关性计算,需要的时间还是比较长的。实际上用户并不需要知道所有匹配的几十万、几百万个页面,绝大部分用户只会查看前几页的检索结果。因此,搜索引擎并不需要计算这么多页面的相关性,而只要计算最重要的一部分页面就可以了。
    选出初始子集后,对子集中的页面计算关键词相关性。计算相关性是排名过程中最重要的一步。影响相关性的主要因素包括关键词常用程度、词频及密度、关键词位置及形式、关键词距离、链接分析及页面权重等。
     选出匹配文件子集、计算相关性后,大体排名就已经确定了。之后搜索引擎可能还有一些过滤算法,对排名进行轻微调整,其中最主要的过滤就是施加惩罚。一些有作弊嫌疑的页面,虽然按照正常的权重和相关性计算排到前面,但搜索引擎的惩罚算法却可能在最后一步把这些页面调到后面去。典型的例子是百度的11位,Google的负6、负30、负950等算法。最后,搜索引擎把计算出的检索结果反馈给用户。

【推荐阅读】
软件设计网站建设策略分析
SEO优化影响因素有哪些
贵阳网站建设的原则有哪些?
站优化:网站内容是关键
搜索引擎优化推广的优点与缺点
大型网站的SEO策略
网络编辑的现状
SEO优化及其现状

声明:本站内容凡注明"来源:百优资源网"的所有文字、图片等资料,版权均属百优资源网原创,任何媒体、网站或个人不得转载、链接、转贴或以其他方式复制发布/发表。本网站部分资源来源于网络,如果有侵犯你的权利,请联系本站删除。

网友评论
用户名 密码 自动登录 登录
*网友评论仅供其表达个人看法 发表评论
  • 软件设计 196
    使用VC++加载图片技巧

    软件设计 | 使用VC++加载图片技巧

    在界面添加图片,在VB、delphi等软件设计语言中很简单,但是在VC++中是很难实现,这过程不但要对图片进行导入,还要显示,最后要清除内存。下面小编对这个方法进行了整理,直接复制就可以实现使用VC++加载图片技巧了。

    毕业设计 556
    搜索引擎(SEO优化)的基本策略

    毕业设计 | 搜索引擎(SEO优化)的基本策略

    搜索引擎(SEO优化)的基本策略是什么,SEO中文意译为“搜索引擎优化”,使网站迎合搜索引擎的排名规则,进而从自然搜索结果获得网站流量的技术和过程。本文对搜索引擎(SEO优化)的基本策略进行介绍。

    毕业论文 394
    对贵州中药业发展的思考

    毕业论文 | 对贵州中药业发展的思考

    中药产业是我省独具特色和优势的民族产业和战略产业,更是贵州发展的潜在支柱产业,也是本身医药发展之根本。本文对我省的中药业面临的问题进行探索,旨在对该产业的发展作出有益的贡献。

860010-1102010400