从事SEO(搜索引擎优化)工作的人可以比喻成搜索引擎的贴身管家)
你知道搜索引擎的工作原理吗?有必要看看做SEO
从事SEO(搜索引擎优化)工作的人可以比作搜索引擎的私人管家。作为一名合格的管家,必须了解他所服务对象的习惯、爱好和健康状况。
SEO服务的对象是搜索引擎,你要牢记它的运行规律、工作原理、习惯、优缺点等,多练习,多练习,经验会更丰富。
搜索引擎是由人创造的,所以它们是有道理的。搜索引擎工作流程主要有爬取、预处理和服务输出三个工作流程。
一、爬行:
爬取是搜索引擎蜘蛛从待爬取地址库中提取出待爬取的URL,访问该URL,并将读取到的HTML代码存入数据库。蜘蛛的爬行就是像浏览器一样打开这个页面,和用户浏览器访问一样,也会在服务器的原创日志中留下记录。
爬行爬行是搜索引擎工作中的重要一步。抓取所有需要爬回来的地方进行处理和分析。因此,如果在爬行这部分时出错,您以后将完全瘫痪。
搜索引擎已经提前对抓取的网页进行了处理。征集工作也必须按照一定的规律进行,基本上具有以下两个特点:
2、增量采集:是批量采集的技术升级,完美弥补了批量采集的不足。在原有基础上采集新增网页,更改上次采集后发生变化的网页,删除重复和不存在的网页。
二、预处理:
1、提取文本
当搜索引擎抓取页面的HTML代码时,首先会从HTML文件中去除标签和程序,提取出可用于排名处理的页面文本内容。
2、中文分词
分词是中文搜索引擎独有的一步。英语句子中的单词之间有空格。搜索引擎可以直接将句子分成词组,但中文不能。搜索引擎需要识别哪些词构成一个词,哪些词本身就是一个词。例如,“airswitch”将分为两个词:“switch”和“air”。
中文分词基本上有两种方法:基于字典的匹配和基于统计的匹配。
基于字典的匹配方法是指将一段待分析的汉字与预先建立的字典中的一个词条进行匹配。从待分析的汉字字符串中扫描字典中已有的词条会匹配成功,或者将其拆分出来。一个字。如果按照扫描方向,基于字典的匹配方法可以分为正向匹配和反向匹配。根据匹配长度的优先级,可分为最大匹配和最小匹配。首先混合扫描方向和长度,可以生成前向最大匹配和反向最大匹配等不同的方法。字典匹配法计算简单,其准确性在很大程度上取决于字典的完整性和更新性。
基于统计的分词方法是指对大量文本字符进行分析,计算相邻字符的统计频率。相邻的几个字符越多,形成一个单词的可能性就越大。基于统计的方法的优点是对新词反应更快,也有助于消除歧义。
基于词典匹配和统计的分词方法各有优缺点。实际使用中的分词系统混合使用了两种方法,快速高效,可以识别新词和新词,消除歧义。
3、去停止词
无论是英文还是中文,页面内容中都会出现一些频繁出现但对内容没有影响的词,例如“的”“地”等助词,“啊”“哈”等感叹词.词、副词或介词,如“从而”、“一”和“阙”。这样的词被称为停用词。搜索引擎会在索引页面前去除这些停用词,使索引数据的主题更加突出,减少不必要的计算。
4、消除噪音
5、删除
去重的基本方法是为页面特征关键词计算指纹,即选择页面主要内容中最具代表性的部分关键词(往往出现频率最高的关键词),然后计算这些关键词数字指纹。这里关键词的选择是分词后,停词,降噪后。选择10个特征关键词来达到比较高的计算精度是常识,再选择更多的词对去重精度的提升作用不大。
6、远期指数
前向索引也可以简称为索引。经过前五步后,搜索引擎就得到了一个能反映页面主要内容的唯一字串。然后搜索引擎就可以提取关键词,按照分词程序进行分词,将页面转换成关键词的集合,记录每个关键词在页面上出现的频率,出现次数、格式(如字幕标签的出现、粗体、H标签、锚文本等)、位置等信息。这样,每个页面都可以记录为一串关键词集合,其中还记录了每个关键词的词频、格式、位置等权重信息。
7、后向索引
8、链接关系计算
搜索引擎抓取页面内容后,必须提前计算:页面上的哪些链接指向其他页面,每个页面上有哪些导入链接,链接中使用了哪些锚文本。这些复杂的链接指向关系构成了网站和页面的链接权重。谷歌PR值是这种链接关系最重要的体现之一。其他搜索引擎也执行类似的计算,尽管它们不称它们为PR值。
9、特殊文件处理
除了HTML文件,搜索引擎通常可以抓取和索引多种基于文本的文件类型,例如PDF、Word、WPS、XLS、PPT、TXT文件等,我们经常在搜索结果中看到这些文件类型。但是,目前的搜索引擎还不能处理图像和视频,只能对Flash等非文本内容以及脚本和程序进行有限的处理。
10、质量判断
三、服务输出:
1、输出结果
搜索引擎最终会跟随用户的搜索输出结果。这是我们看到的百度快照。在之前搜索引擎综合评测的机制原理中,我们可以看到搜索引擎已经做了初步的处理,然后根据用户的实际情况。搜索词做具体调整,然后输出结果。
我们优化网站的目的是为了提升关键词的排名,那么如何快速提升关键词的排名呢?现场SEO培训刘少清相信大家可以在这部分内容中找到一些答案。
2、智能完美
搜索引擎还有一个工作,就是不断地学习和完善自己。通过这种智能学习,不断完善规则,向搜索用户展示更多符合他们期望的搜索结果。