Google百度等搜索引擎采用的技术(7)
继续昨天的《Google百度等搜索引擎采用的技术(6)》,深入探索当代搜索引擎Google百度的秘密。
3.2,搜索引擎排序算法
搜索引擎的排序算法(ranking algorithm),决定了各个网页、图片、MP3等数据的重要性排列顺序,也决定了最终用户查询到的数据排序。搜索引擎的排序算法是人工智能的完满体现,它是对百亿级数据进行重要性分析的数学实现。
“ PageRank”是Google公司在排序算法上的专利技术,也是Google能从众多搜索引擎公司中脱颖而出的最核心技术,作为其搜索服务能够超过其他竞争对手最有力的武器。
不同搜索引擎公司排序算法的优劣,直接决定了广大搜索引擎用户对搜索服务的选择,在互联网上,一个普通用户更换搜索服务只需要5秒钟,所以排序算法就成为了各个搜索引擎公司最核心机密。另外,每个搜索引擎公司也必须不停地改进其排序算法。
排序算法部分参考指标:
| 指标 | 加分 | 减分 |
| 网站硬件指标 | 网站网络好,系统稳定 | 网站系统不稳定,网络不好 |
| 网站包含网页数 | 总网页数目多 | 总网页数目少 |
| 网页大小 | 网页大小适中 | 网页多大或过小 |
| 其他网页链到本网页 | 数目多 | 数目少(一亿度补充:外链很重要) |
| 网页内URL数 | 数目适中 | 过多或过少(想不到这个也很重要:() |
| 网页相关性 | URL连接网页是相关内容 | URL连接网页不是相关内容 |
| 网页更新/生成日期 | 日期近的 | 日期远的 |
| 网页类型 | 静态网页 | 动态网页 |
| 网页内样式 | 网页设计样式中等 | 网页设计样式过于复杂或简单 |
| 网页具体内容 | 分词后,各个词权重总和高 | 分词后,各个词权重总和低 |
| 用户访问行为 | 点击多的网页 | 点击少的网页(一亿度补充:用户体验很重要,内容质量高很重要) |