Google百度等搜索引擎采用的技术(5)

  继续上一篇的Google百度等搜索引擎采用的技术(4),探索现代搜索引擎的核心秘密。

  三、中文分词和排序算法介绍

  3.1,中文分词

  自然语言理解和处理,是人工智能的重要的研究领域之一,是语言学、逻辑学、生理学、心理学、计算机科学和数学等相关学科发展和结合而形成的一门交叉学科。

  分词作为搜索引擎的一项核心功能,和存储和查询有重大关系。但是不同的研究角度,不同的研究方向,带来研究重点和研究结果都是不一样的。

  语言学方向研究的分词算法,看重分词的准确性,不看重运算速度;而搜索引擎的分词算法,特别看重分词速度,分词准确性中等。

  以英文为代表的字母型文字,按照空格和标点符号比较容易实现分词,而以中文为代表的东亚语系文字,在分词方面,却存在巨大的困难。(一亿度补充:这正是许多人常说的:Google虽然总体技术水平高于百度,但在中文分词方面不及百度,所以百度常说百度更懂中文。另一方面,这可能也是Google在欧洲,北美各国占得搜索引擎市场70%乃至90%的份额,而在亚洲各国如中国,日本,俄罗斯,韩国,市场份额却很不理想的一个原因。)

  据说百度(也包括北大天网)在早期时,所有的中文文字,全部拆分为一个个的单字,搜索效果比较差。但也有特殊效果,比如说:搜“我为秋香”,能够搜到唐伯虎的著名藏头文。

  我康宣今年一十八岁,姑苏人氏,身家清白,素无过犯。只
  为家况清贫,鬻身华相府中,充当书僮。身价银五十两,自
  秋节起,暂存帐房,俟三年后支取。从此承值书房,每日焚
  香扫地,洗砚磨墨等事,听凭使唤。从头做起,立契为凭。

  搜索引擎的中文分词,在算法上有两种,一个用于后台索引处理,一个用于前端对搜索词进行分词处理。

  比如说:有一条纪录内容为“中国人民解放军”。

  在构建后台索引时,可分词为: “中国人民解放军”、 “中国”、 “人民”、 “解放军”、 “中”、 “国”、 “人”、 “民”、 “解”、 “放”、 “军”,对这11个字词都要建立索引。这样做的目的是为了,当搜索词为上面这11种中任何一个时,都能在各自索引库中找到“中国人民解放军”这条纪录。

  搜索词为“中国人民解放军”,在其前端的分词处理,就只分词为: “中国人民解放军”或“中国+人民+解放军”或“中国+人民解放军” 。

  因为中文本身存在着很大的歧义性,同样一句话,不同的断句,表达的意思就不一样。这对于计算机去做机器分析,就带来了巨大的困难。

  下面的中文断句,来自百度广告宣传片:

  「我知道你不知道我知道你不知道我知道你不知道」
  「我知道,你不知道。我知道,你不知道我知道,你不知道」
  「我知道你,不知道我。知道你不知道我,知道你不知道」
  「我,知道你不知道我知道。你,不知道我知道你不知道」

收藏到QQ书签
0 我顶!
1条评论(comments)

(提示:以下内容由网友发表,评论包含的网址未经验证,请保持警惕!)
  1. LoveBlogEarn

    最近都来GG技术了 强!!

发表评论(Leave a comment):

(网友评论仅供网友表达个人看法,并不表明一亿度同意其观点或证实其描述)

(含人身攻击、广告、恶意网址、机器发送的评论,统统删除)

【返回互联网络】 【返回首页

Copyright © 2008-2009 YiYidu Inc. All rights reserved.
44 queries in 1.189 seconds.