程式師世界 >> 編程語言 >> JAVA編程 >> 關於JAVA >> “HillTop”論-探索Google排名新算法

“HillTop”論-探索Google排名新算法

編輯：關於JAVA

2003的11月16號--這個日子可能會成為搜索引擎歷史的一個重要裡程碑。正是在這次被大家稱為" Google Florida"的更新中，Google對其排名算法進行了大規模改動，並導致很多原來排名很好的網站在一夜之間如夢魇般直落孫山。每個更新周期可能會對排名算法做一些小小的改動Google一貫的做法，但這次如此大手筆的改動，不能不讓網站管理員乃至整個搜索引擎優化行業都倍感震驚和始料不及。不但很多原來排名一直保持前矛的商業網站丟掉了排名，同時亦使得許多做網站排名優化的公司都受到了不小的沖擊。但由於Google幾乎占據了搜索市場的大半江山，倘若此時棄而轉用其它搜索引擎進行生意推廣，並不見得為明智之舉。
對於Google新算法到底采用了什麼新機制，仍然是SEO界爭論的焦點。目前有兩種主要理論。一種是"專家系統"，即Hilltop算法，也就是本文將要闡述的；另外一種則是以Dan ThIEsw為首的 TSPR(Topic-Sensitive-PageRank：主題性頁面級別技術)理論，其大概思路為：查詢發生時，Google將對查詢條件和CIRCA數據庫中包含的主題進行匹配，查詢與主題的關系越密切，則主題性頁面級別得分效果越佳。此外，由於一個給定的查詢條件可能會與數據庫中多個主題匹配，所以頁面級別計算中出現的任何小錯誤都將由關聯的一定數量的主題性頁面級別得分平攤，因而近似的主題性頁面級別得分即可提供高質量的搜索結果。詳細論述可參看"TSPR理論-如何應對Google PageRank排名新算法"。我們相信，無論Google采用什麼新算法，其目的均旨在向用戶提供更為精准的搜索結果。

HillTop (LocalScore) 算法
作者：Atul Gupta
Google新算法的廬山真面目到底是什麼？這仍然是個迷。而在Google網站上，從其"對高質量內容網站進行獎勵及對采用惡意技術的網站進行懲戒"內容中，亦無什麼新內容可尋端倪。自然，作為搜索引擎，這種做法是完全可以理解的。搜索引擎的算法應該是保密的，因為它們對新算法的任何評論，同意或否定的言行都會洩露其新算法，而任何對排名系統的一丁點洩漏都有可能被一些人鑽了空子，並用來惡意操縱搜索結果，從而破壞搜索結果的客觀公正性。
我們根據一些比較具有可行性的推測，並結合實際研究、試驗，以及對搜索引擎行為的發展趨勢和歷史的知識基礎，得出了一些發現。首先，我們來看看對於Google新算法的一些比較值得注目的發現：

1.Google新算法種種之種種傳言 & 猜測

對於Google新算法主要有下面這樣一些傳言和猜測：

開始使用詞典對號入座；

意圖施壓使商業站點使用AdWords廣告服務；

開始使用"基於貝葉斯定理的SPAM過濾系統" ；

開始處罰互惠鏈接，"優化"網頁，或"鏈接文本" ；

眾多猜測中，"Google意圖施壓使商業站點使用AdWords廣告服務"顯然占了上風。許多搜索引擎優化分析家都認為：Google通過一個保密的過濾系統"黑名單"來對商業網站進行篩選，從而達到上述目的。對此觀點我實在不敢苟同。解釋如下…

1.1 是否若查詢條件中包含"商業性關鍵詞"時，Google會對搜索結果進行篩選？

因為這次更新中損失最慘重的是一些商業網站，所以有很多搜索引擎優化專家都認為Google開始對那些含有所謂"商業性關鍵詞"的查詢條件所產生的查詢結果進行篩選。而從優化專家針對此所做的一些最初的測試結果來看，確實也表明了一些看起來似乎能夠證實這種推測的征兆。

1.2 Google此舉動機何在？

如果這是真的，那麼Google為什麼要這樣做？這種推測的後盾在於Google算法更新的時間正好在聖誕購物季節之前，並適逢其IPO上市之際。分析家認為：Google這樣做是為了向商業性站點施加壓力，如果這些商業網站期盼在一年一度的美國傳統的聖誕購物季節得到豐厚贏利的話，就得花錢做AdWords自助廣告。免費午餐看來是沒有了。還有一些人則認為Google此舉旨在為其最終業績(即基線)塗抹上一點光明的色彩來打動其未來投資者。

1.3 那麼又是誰取代了商業站點原來的交椅？

從結果頁上看，前20個結果好象都是一些官方站點(.gov)，教育類站點(.edu)，公益組織性站點(.org)，目錄及非美國本土的站點。由於這些站點一般並不太需要做廣告，所以分析家們據此相信：提升這些類型的網站不會影響到Google的廣告收入，同時還可以對商業性站點施壓並迫使其加入Google的AdWords自助廣告陣營中來。

1.4 Google從何獲得"商業性關鍵詞"名單？

從Google的AdWords廣告系統，Google已然擁有一個大型的"商業性關鍵詞"的數據庫。有趣的是，等於是那些廣告客戶和商業性站點的所有者自己把哪些是"好的商業詞語"告訴給Google了-Google通過廣告者對關鍵詞語的競標價格的變化完全可以看出每個關鍵詞語的"價值"來。

1.5 事實究竟如何？Google是否確是在用"商業關鍵詞"名單來過濾掉商業站點？

我個人認為：這種想法實在與事實太過相悖，而且我堅信：Google並不象分析家們所認為的在"過濾"站點。而且我相信，Google壓根就沒有什麼"商業關鍵詞"名單。一度流行的這種"過濾名單"理論是分析家們從自己所看到的跡象上得出的，而事實上這些所謂的跡象是由於其它原因所引發的，而並不是什麼"過濾"所導致的。後面我會就此問題向大家詳細解釋和闡述。

不可否認，從實踐中我們確實可以看到一些象"過濾"的結果，但我們有理由相信這樣的結果實際上是Google新算法的一種"副產品"，而非Google本意。新算法意圖對商業性網站而不是公益性網站施加影響。稍後我會向大家詳細解釋…

Scroogle.org，這個由不喜歡Google的群體所建立的網站，原來可以通過一種巧妙的方式從Google上提取數據，並向用戶提供一種可檢查網站在Google上的"未過濾"的往日排名結果的工具。不過由於Google現已更新了算法以禁止此類查詢，故Scroogle.org現已無法提供這樣的工具。不過，該網站仍顯示有一個從其網站上多方搜索而收集到的所謂"Filter Hit"名單。我研究過這個名單。我覺得，它充其量也只能證明了Google並未使用任何如上所說之名單。不然的確話，如何解釋"California Divorce Attorney"位於名單之首而"Books"或"Adult"卻屈居最下席？難道在Google眼裡，"California Divorce Attorney"比"Books"或"Adult"更有商業價值？

Google任何從正常的排名機制中過濾掉把商業性站點的企圖都是對Google品牌，乃至對其公正的搜索結果信譽的嚴重損害。若真有這樣的企圖，那Google真是太短視了，根本配不上它的品牌和它的服務。Google的股票上市(IPO)和最終業績都將因此而毀於一旦。此外，Google也說過，其"搜索服務"和"AdWords自助廣告"服務分屬兩個不同的工作部門，且互不搭界、互不影響。對此我還是相信的。

2.Google搜索技術的幾個明顯變化

2.1 Google開始采用詞干技術(stemming)

Google確已在搜索結果中采用了詞干技術。在早先，如果搜索一個單數查詢條件如"home garden"，則搜索結果中不會出現如"home gardens"，"home gardening"這樣的關鍵詞變化形式，反之亦然。對於Google的用戶來說，這種特性可能是一件好事情，因為搜索提供的結果更多了，但站在搜索引擎優化的立場來看，由於搜索結果的驟然增加，對關鍵詞的競爭亦驟然加劇。

2.2 Google於搜索結果中使用了拼寫糾錯工具

Google開始將其拼寫檢查工具用於搜索結果中。例如，當輸入查詢條件為"Search Engine Optimisation"後，以往Google只會提示你是否是要找"Search Engine Optimization"，但顯示的還是符合"Optimisation"的搜索結果。不過現在則能看到"Optimization"的搜索結果。再如："e-mail solution"和"email solution"的搜索結果一致，而"e-commerce"則與"ecommerce"的搜索結果是一致的，這樣就增加了數據的競爭性。

3.對Hilltop算法的分析和推測

3.1 為什麼采用新算法

大多數網迷們都知道，頁面等級算法是由Google的創始人Sergey Brin和Larry Page所倡起的,用以精良網站在搜索結果中的排名。這也是自1998年Google發布以來的取得種種驕人成績的重要因素之一。

但頁面等級系統亦存在著一個基本的缺陷，Google也深知這一點。它根據一個網頁上被鏈接的站點數量和質量來給該網頁分配一個絕對的"重要性值"。同時亦將鏈接頁面的頁面等級考慮在內。指向一個網頁的外部鏈接頁的頁面等級越高，則該鏈接頁面傳遞給該網頁的頁面等級值也就越高。但是，"頁面等級值"並非針對查詢詞語，因而一個網頁即使只是在內容中偶然提到了一個和查詢主題偏離的關鍵詞語，也會因其居高的頁面等級值而獲得一個比較高的排名。

美國加州的克利須那。伯哈拉特(Krishna Bharat) 意識到基於頁面等級的排名系統中所存在的這種瑕玼，並於2000年提出了一種新算法，他稱其為"Hilltop"算法，並於2001年的一月份申請了Hilltop專利權，Google成為受讓方。不言而喻，Google已然意識到這種新算法與其頁面等級系統的整合將為Google的排名系統帶來良好的效果。

我深信，在Google最近的更新中，不但運用了Google自身的頁面等級和相關性算法，而且還結合使用了Hilltop算法用於精工調整頁面等級的效果，只不過Hilltop算法可能已迥異於它最初的模樣了。

3.2 什麼是Hilltop算法？

對此算法有興趣了解並想挖根究底的人可以看看克利須那。伯哈拉特當年所寫的Hilltop論文及詳細的Hilltop專利信息。但對我們大多數人來說，只要知道Hilltop算法到底是個什麼東東就可以了。簡單地說，頁面等級決定一個網頁的"權威性"，而Hilltop(LocalScore)則決定匹配一查詢條件的一個網頁的"權威性"。

Bharat提出：在利用"頁面等級"來尋找"權威"網頁時，不應單純依賴於值的大小來定奪，而應將重點放在它與查詢主題的相關性上；即不但需要考慮網頁的頁面等級，還要考慮該網頁的頁面等級與查詢主題的相關性是否相稱。若一個網頁只與查詢主題只沾點邊，那麼即使其頁面等級非常之高，對用戶來說也是沒有意義的。如此一來，於網頁而言，那些來自於"相關主題"的文檔的鏈接就更有意義了 (Bharat稱這種"相關主題"文檔為"專家文檔")，一個網頁的所有外部"專家文檔"鏈接構成了該網頁的"權威性值"。Hilltop算法的意義在於：相同主題網站之間的鏈接應比非相關網站的鏈接具有更高的價值。

Hilltop算法以如下方式計算一個網頁的"權威值"(這只是極為簡單的一個例子)：

以該關鍵詞進行一次普通查詢找專家文檔"文集"。"專家文檔"的定義有嚴格標准，因該"文集"應是數量上易於管理的一組網頁。

從返回的專家列表中把成員站點(見下注解*)和鏡象站點去掉。

根據所獲得的上述專家文檔對其投票的數量和質量，網頁被分配以一個“局部分數”(LocalScore)。然後按網頁的“局部分數”進行排名。
*注解：成員站點指來自同一個域，或域相同而後綴不同的站點，如ibm.com，ibm.co.uk，ibm.co.jp等等，或指來自相鄰的IP地址的站點 (前三位IP地址相同，形如64.129.220.xxx)