|
|
Google分詞算法值得我們好好研究一下。Google的搜索結果頁(SERP)與搜索關鍵字的相關性,明顯大于百度,這是因為Google把搜索關鍵字都拆分成最基本的詞組和單字后,在根據相關性去匹配數(shù)據庫的中內容,而且Google拆分后的最基本詞組,完全是根據詞典里的詞組匹配的,也是說它符合國家語言文字工作委員會的規(guī)范和標準的,這只限于普通詞組(公眾人名、著名品牌名)。 實例1:測試Google是否有專業(yè)名詞庫 在Google搜索“搜索引擎關鍵字”,Google會把這個關鍵字短語拆分為“搜索—引擎—關鍵—字”,這是因為“搜索引擎”和“關鍵字”都是網絡專業(yè)詞組,可能Google沒有專業(yè)詞組庫,所以就被拆分成了“搜索—引擎—關鍵—字”。 實例2:測試Google拆分長關鍵字 在Google搜索“他舅WAP流量統(tǒng)計分析”,Google把這個關鍵字短語拆分為“他—舅—wap—流量—統(tǒng)計—分析”六部分,“WAP”是一個英文詞組,包括Google和其他搜索引擎一般是不拆分英文詞組的(就算它不是英文單詞),“流量”、“統(tǒng)計”、“分析”都是符合國家語言規(guī)范的標準詞組,“他舅”只是中國老百姓一個口頭稱謂用語,不符合國家語言規(guī)范,在詞典中根本就查不到這,所以Google就把“他舅”拆分成了兩個單字。 實例3:測試品牌名是否被Google收錄為詞組 在Google搜索“海爾冰箱”、“惠普電腦”、“華為通訊”、“美的電器”,“五糧液酒”,“夏利汽車”、“北京同仁堂”這七個都是著名的品牌,結果是“海爾”、“惠普”、“華為”、“五糧液”、“同仁堂”都是單獨的詞組,沒有被拆分為單字,“夏利”、“美的”這兩個品牌卻被拆分成了單字。不是所有品牌都能被Google作為一個詞組收錄進品牌詞庫,Google有自己的收錄標準的。 實例4:測試Google是否會拆分成語 下面我們搜索一下韓喬生的經典名句“迅雷不及掩耳之勢”和“山清水秀麗”,結果“迅雷不及掩耳之勢”這個短句被拆分成了“迅雷—不及—掩耳盜鈴—之—勢”,“迅雷”是一個符合漢語言規(guī)范的標準詞組,不是指下載工具那個“迅雷”,“不及”也是一個詞組,“掩耳盜鈴”也是符合國家語言規(guī)范的成語,“之勢”不是標準詞組,所以就被拆分為兩個單字!吧角逅沱悺北徊鸱譃榱恕吧角逅恪悺保吧角逅恪笔且粋成語沒有拆分。Google把成語作為幾個基本詞組,不會進一步拆分。 實例5:測試普通之間是否有權重高低之分 搜索“山河水災”這個關鍵字短語,結果Google拆分為“山河”和“水災”兩個詞組;然后搜素“山河水災情”這個關鍵字短語,結果Google拆分為“山河”、“水”、“災情”三部分,“水”字沒有和“災”組成詞組,反而“災”和“情”組成了詞組,這說“災情”這個詞的權重高于“水災”的權重。這說明詞組之間也是有權重之分的。 根據實例測試推斷:Google會把搜索的關鍵字(短語)拆分為最基本的詞組,這些普通詞組都是符合漢語言規(guī)范的標準詞組,不像百度那樣收錄“人造名詞”。Google的詞組大致可分為普通名詞、地名、人名等幾類,關鍵字(短語)都是從左向右,按權重高低拆分。這些詞組權重從低到高依次如下:人名<普通詞組<地名<成語<領導人名字。進一步測試品牌名和人名的權重是一樣,都是最低的,這只是一個大致順序,因為同一類詞組還會根據日常使用的頻率進一步的分級,每一級的分配不同的權重,所以同一類詞組之間也有權重高低之分。
|
|