杭州SEO專用徐少輝要說的是:網(wǎng)頁查重算法,也就是搜索引擎是怎么檢查兩個網(wǎng)頁的相似性的?這應該是大家應該比較關心的問題吧,因為這有助于讓你的“偽原創(chuàng)”更像一個“原創(chuàng)”
首先我跟大家講有名的I—MATCH算法。
我們在比較兩件事物的相似性時,往往都會拿能均衡的反應這事物本質(zhì)的東西來比較,就像比賽時,要去除一個最高分和最低分,然后再變算總分一樣~~
I—MATCH算法基于的依據(jù)是,在文擋中,特別高頻的詞和特別低頻的詞無法反應這一個文擋的真實內(nèi)容,所以在比較之前,先將文擋中高頻詞和低頻詞去掉(注意:這里的高頻和低頻指的是文檔頻率,并非關鍵詞在你網(wǎng)頁中的密度!)
我們來看一個例子:
這里有兩段網(wǎng)頁文字:
1.中國足球隊在米盧的率領下首次獲得世界杯決賽階段的比賽資格,新浪體育播報 。
2.米盧率領中國足球隊員首次殺入世界杯決賽階段,搜狐體育播報。(嘿嘿,看到這兩句很熟吧?)
文檔(一)中去掉高頻:中國,在,的,獲得,比賽,資格,新浪,體育,播報
去掉低頻:米盧
則剩下中頻詞有:足球隊,率領,首次,世界杯,決賽,階段
文檔(二)中去掉高頻:中國,搜狐,體育,播報
去掉低頻:米盧,殺入
則剩下中頻詞有:率領,足球隊,首次,世界杯,決賽 ,階段
看到了吧?剩下的,兩者是一模一樣 這就是相似性的存在
呵呵,其實這個例子很早就有過的。。
綜上所述:搜索引擎要檢測相似性,主要就是要分詞和詞頻的比較!!
|