Google百度等搜索引擎采用的技术(2)

  继续上一篇的《Google百度等搜索引擎采用的技术(1)》

  1.4,搜索引擎系统图:
  

  1.5,全文检索系统和搜索引擎关系

  1、搜索引擎技术来源于全文检索系统,搜索引擎是全文检索技术最重要的一个运用.
  2、搜索引擎在数据总量,最大并发处理能力,单次查询速度方面,都远远强大于全文检索系统.
  3、搜索引擎为了最求最高的查询速度,在搜索结果准确性及搜索结果重现方面,都弱于全文检索系统.

  1.6,全文检索系统和搜索引擎比较
  

类别 全文检索 搜索引擎
信息获得 信息获得比较容易,被检索内容基本上都是规范化信息. 信息获得困难,特别是信息提取的准确率受算法影响很大.
信息总量 支持的信息总量较少,搜索速度受信息总量增加而递减. 支持几十亿到几百亿的信息总量,搜索速度和信息总量基本无关.
分词技术 分词准确性较高,分词速度中等,搜索结果比较满意.词库更新慢. 分词速度极快,分词准确性中等.新词补充及时.
存储索引 索引结果硬盘存储,系统内存消耗较少,可和其他程序并存. 索引结果,以内存存储为主,硬盘存储为辅, 大多独占操作系统.
搜索耗时 搜索用时为秒级,只支持小用户量并发. 搜索用时可达到毫秒级,拥有超强并发处理能力.
搜索结果(SERP) 搜索结果准确,结果总数为实际数目, 搜索结果能准确重现. 结果不够准确,只提供全部结果的前面部分, 搜索结果不保证重现.
系统规模 系统简单,服务器硬件投入较少,硬件管理比较轻松. 系统庞大,服务器硬件投入巨大,几百台服务器到几十万台服务器.
收藏到QQ书签
0 我顶!

发表评论(Leave a comment):

(网友评论仅供网友表达个人看法,并不表明一亿度同意其观点或证实其描述)

(含人身攻击、广告、恶意网址、机器发送的评论,统统删除)

【返回互联网络】 【返回首页

Copyright © 2008-2009 YiYidu Inc. All rights reserved.
44 queries in 0.377 seconds.