Google百度等搜索引擎采用的技术(2)
继续上一篇的《Google百度等搜索引擎采用的技术(1)》。
1.4,搜索引擎系统图:

1.5,全文检索系统和搜索引擎关系
1、搜索引擎技术来源于全文检索系统,搜索引擎是全文检索技术最重要的一个运用.
2、搜索引擎在数据总量,最大并发处理能力,单次查询速度方面,都远远强大于全文检索系统.
3、搜索引擎为了最求最高的查询速度,在搜索结果准确性及搜索结果重现方面,都弱于全文检索系统.
1.6,全文检索系统和搜索引擎比较
| 类别 | 全文检索 | 搜索引擎 |
| 信息获得 | 信息获得比较容易,被检索内容基本上都是规范化信息. | 信息获得困难,特别是信息提取的准确率受算法影响很大. |
| 信息总量 | 支持的信息总量较少,搜索速度受信息总量增加而递减. | 支持几十亿到几百亿的信息总量,搜索速度和信息总量基本无关. |
| 分词技术 | 分词准确性较高,分词速度中等,搜索结果比较满意.词库更新慢. | 分词速度极快,分词准确性中等.新词补充及时. |
| 存储索引 | 索引结果硬盘存储,系统内存消耗较少,可和其他程序并存. | 索引结果,以内存存储为主,硬盘存储为辅, 大多独占操作系统. |
| 搜索耗时 | 搜索用时为秒级,只支持小用户量并发. | 搜索用时可达到毫秒级,拥有超强并发处理能力. |
| 搜索结果(SERP) | 搜索结果准确,结果总数为实际数目, 搜索结果能准确重现. | 结果不够准确,只提供全部结果的前面部分, 搜索结果不保证重现. |
| 系统规模 | 系统简单,服务器硬件投入较少,硬件管理比较轻松. | 系统庞大,服务器硬件投入巨大,几百台服务器到几十万台服务器. |


