Google百度等搜索引擎采用的技术(4)

  继续上一篇:《Google百度等搜索引擎采用的技术(3)》。,介绍搜索引擎的技术细节,本文作者屈波,在此表示感谢!

  2.4,爬虫程序介绍
  1.单线程模型
  

  2.多线程模型(省略掉DNS Cache部分)
  

  3.爬虫集群模型
  

  2.5,内容提取
  内容提取是《模式识别》学科范围内容,对获得的信息进行预处理后,按照特征值提前和选择,最后进行内容的识别。内容提取的准确率受算法影响较大,尤其是新闻、图片等内容。动态网页比较容易的通过网页比对,整理出其网页设计模板,按照模板可以准确率较高的完成提取。

  网页内容的正确提取,对排序算法设计,也有非常重要的影响。

  判断两个内容是否相同的排重算法,一般按照贝叶斯决策理论进行处理,判断两个内容的相似度,最常用于相同新闻的判断。

  因为目前WAP网页数据总量过少,另外WAP网页包含数据也过少,在基于WAP网页的搜索引擎中,带给用户的信息总量过少,所以基于WAP内容的搜索发展缓慢。

  对Web网页内容如能进行提取出最关键内容,有一套高效的智能内容提取程序。在移动搜索引擎中,搜索内容为智能提取出来的Web网页内容,这将大大加快移动搜索服务发展。

  Web网页内容的智能提取,属于复杂数据类型挖掘,其程序算法难度非常大。

  

收藏到QQ书签
0 我顶!

发表评论:

(请勿发表攻击性言论和无关链接,谢谢合作!对于不自觉者,本站保留删除任何一条评论而不予解释的权利。)

(评论中最多可以包含两个链接[a href形式],超过两个的将被自动删除。)

【返回互联网络】 【返回首页

Copyright © 2008 YiYidu Inc. All rights reserved.