|
阅读:541回复:0
google的问题(转)
:
呵呵,google这几天的问题,能解释的人还真是屈指可数,除了google的员工,你也找不到能比我解释更清楚的了。^@^ 是分词(或切词)的问题。 google现在对中文关键词不做分词解析就搜索,可是索引库里都是已分词过的字词,所以,对于需要分词的中文关键词,就搜不了或者只能搜到几条原来就没有分词的条目。但对于无须分词的,那些最简单的中文字词单元依然正常搜索。 google这几天换库,可能忘了上分词系统或其它故障影响了分词系统。问题在于google自己大概还不知道这事,只要知道了,马上就能弄好。我给过它mail了,但它收到mail多,不知道什么时候能注意到此事。 普通的国内中文搜索,目前可以使用www.baidu.com,百度对付简单搜索还不错,也有网页快照。复杂搜索或组合搜索就只能等google恢复了。 另一个变通的方法,是你自己先分词好了再用google搜索。 比如,搜 [安替],结果很少,是因为google索引库中没有“安替”这个词,只有“安”和“替”两个词,所以你输入“安替”搜索,google需要先把你的关键词分词成“安”和“替”,然后找出含有“安”和“替”两个字、并且这两个字连在一起的所有网页,然后按排序算法排列。 现在google不能预先分词,你就自己用“安”和“替”两个字搜索,如[安替],能正常搜索,但是结果会很杂乱,因为“安”和“替”没有连在一起的网页也被搜出来了。这时,你可以尝试用英文双引号把这两个字括起来搜索,能够减少很多杂音。如["安替"]。如果还要什么特别的内容,就另外加其它关键字,自己预先分词。 还有一个小窍门,双引号可以只输前一半,效果是一样的。如["安替"]和["安 替]的搜索效果是一样的 |
|
|