Google百度等搜索引擎采用的技术(4)
继续上一篇:《Google百度等搜索引擎采用的技术(3)》。,介绍搜索引擎的技术细节,本文作者屈波,在此表示感谢!
2.4,爬虫程序介绍
1.单线程模型

2.多线程模型(省略掉DNS Cache部分)

3.爬虫集群模型

2.5,内容提取
内容提取是《模式识别》学科范围内容,对获得的信息进行预处理后,按照特征值提前和选择,最后进行内容的识别。内容提取的准确率受算法影响较大,尤其是新闻、图片等内容。动态网页比较容易的通过网页比对,整理出其网页设计模板,按照模板可以准确率较高的完成提取。
网页内容的正确提取,对排序算法设计,也有非常重要的影响。
判断两个内容是否相同的排重算法,一般按照贝叶斯决策理论进行处理,判断两个内容的相似度,最常用于相同新闻的判断。
因为目前WAP网页数据总量过少,另外WAP网页包含数据也过少,在基于WAP网页的搜索引擎中,带给用户的信息总量过少,所以基于WAP内容的搜索发展缓慢。
对Web网页内容如能进行提取出最关键内容,有一套高效的智能内容提取程序。在移动搜索引擎中,搜索内容为智能提取出来的Web网页内容,这将大大加快移动搜索服务发展。
Web网页内容的智能提取,属于复杂数据类型挖掘,其程序算法难度非常大。

收藏到QQ书签 0 我顶!