Google百度等搜索引擎采用的技术(5)
继续上一篇的Google百度等搜索引擎采用的技术(4),探索现代搜索引擎的核心秘密。
三、中文分词和排序算法介绍
3.1,中文分词
自然语言理解和处理,是人工智能的重要的研究领域之一,是语言学、逻辑学、生理学、心理学、计算机科学和数学等相关学科发展和结合而形成的一门交叉学科。
分词作为搜索引擎的一项核心功能,和存储和查询有重大关系。但是不同的研究角度,不同的研究方向,带来研究重点和研究结果都是不一样的。
语言学方向研究的分词算法,看重分词的准确性,不看重运算速度;而搜索引擎的分词算法,特别看重分词速度,分词准确性中等。
以英文为代表的字母型文字,按照空格和标点符号比较容易实现分词,而以中文为代表的东亚语系文字,在分词方面,却存在巨大的困难。(一亿度补充:这正是许多人常说的:Google虽然总体技术水平高于百度,但在中文分词方面不及百度,所以百度常说百度更懂中文。另一方面,这可能也是Google在欧洲,北美各国占得搜索引擎市场70%乃至90%的份额,而在亚洲各国如中国,日本,俄罗斯,韩国,市场份额却很不理想的一个原因。)
据说百度(也包括北大天网)在早期时,所有的中文文字,全部拆分为一个个的单字,搜索效果比较差。但也有特殊效果,比如说:搜“我为秋香”,能够搜到唐伯虎的著名藏头文。
我康宣今年一十八岁,姑苏人氏,身家清白,素无过犯。只
为家况清贫,鬻身华相府中,充当书僮。身价银五十两,自
秋节起,暂存帐房,俟三年后支取。从此承值书房,每日焚
香扫地,洗砚磨墨等事,听凭使唤。从头做起,立契为凭。
搜索引擎的中文分词,在算法上有两种,一个用于后台索引处理,一个用于前端对搜索词进行分词处理。
比如说:有一条纪录内容为“中国人民解放军”。
在构建后台索引时,可分词为: “中国人民解放军”、 “中国”、 “人民”、 “解放军”、 “中”、 “国”、 “人”、 “民”、 “解”、 “放”、 “军”,对这11个字词都要建立索引。这样做的目的是为了,当搜索词为上面这11种中任何一个时,都能在各自索引库中找到“中国人民解放军”这条纪录。
搜索词为“中国人民解放军”,在其前端的分词处理,就只分词为: “中国人民解放军”或“中国+人民+解放军”或“中国+人民解放军” 。
因为中文本身存在着很大的歧义性,同样一句话,不同的断句,表达的意思就不一样。这对于计算机去做机器分析,就带来了巨大的困难。
下面的中文断句,来自百度广告宣传片:
「我知道你不知道我知道你不知道我知道你不知道」
「我知道,你不知道。我知道,你不知道我知道,你不知道」
「我知道你,不知道我。知道你不知道我,知道你不知道」
「我,知道你不知道我知道。你,不知道我知道你不知道」



2008-7-18 7:45 pm
最近都来GG技术了 强!!