?HillTop ,是一項(xiàng)搜索引擎結(jié)果排序的專利,是Google的一個工程師Bharat在2001年獲得的專利
Google的排序規(guī)則經(jīng)常在變化,但變化最大的一次也就是基于HillTop算法進(jìn)行了優(yōu)化
算法其實(shí)HillTop算法的指導(dǎo)思想和PageRank的是一致的,都是通過網(wǎng)頁被鏈接的數(shù)量和質(zhì)量來確定搜索結(jié)果的排序權(quán)重
但HillTop認(rèn)為只計(jì)算來自具有相同主題的相關(guān)文檔鏈接對于搜索者的價(jià)值會更大
即主題相關(guān)網(wǎng)頁之間的鏈接對于權(quán)重計(jì)算的貢獻(xiàn)比主題不相關(guān)的鏈接價(jià)值要更高
如果網(wǎng)站是介紹“服裝”的,有10個鏈接都是從“服裝”相關(guān)的網(wǎng)站鏈接過來,那這10個鏈接比另外10個從“電器”相關(guān)網(wǎng)站鏈接過來的貢獻(xiàn)要大
在1999與2000年,當(dāng)這個算法被Bharat與其他Google開發(fā)人員開發(fā)出來的時候,Bharat稱這種對主題有影響的文檔為“專家”文檔,從這些專家文檔頁面到目標(biāo)文檔的鏈接決定了被鏈接網(wǎng)頁“權(quán)重得分”的主要部分
與PageRank結(jié)合HillTop算法確定網(wǎng)頁與搜索關(guān)鍵詞的匹配程度的基本排序過程取代了過分依靠PageRank的值去尋找那些權(quán)威頁面的方法
這對于兩個具有同樣主題而且PR相近的網(wǎng)頁排序過程中, HillTop算法就顯得非常的重要了
HillTop同時也避免了許多想通過增加許多無效鏈接來提高網(wǎng)頁P(yáng)ageRank值的作弊方法
定義相關(guān)網(wǎng)站Google最早利用HillTop算法去定義相關(guān)網(wǎng)站
一個網(wǎng)站與另一個網(wǎng)站的相關(guān)性,實(shí)際上,HillTop算法在Google中也作為一個識別跨站點(diǎn)的鏈接交換干擾(spam)與識別相似鏈接的技術(shù)
HillTop算法要求
如果有兩個以上相關(guān)主題的網(wǎng)站鏈接到你的網(wǎng)站,那么你的網(wǎng)站在搜索結(jié)果中出現(xiàn)的機(jī)會會更大,如果HillTop算法不查找到最少兩個相關(guān)性的網(wǎng)站,那么搜索返回的結(jié)果的機(jī)會絕對是0
HillTop算法實(shí)際上是拒絕了部分通過隨意交換鏈接的方法來擾亂Google的排名規(guī)則而得到較好排名的做法,而在HillTop的論文中也提到很多關(guān)于識別“網(wǎng)站鏈接交換聯(lián)盟”的設(shè)計(jì)
如根據(jù)IPv4地址的頭3段,根據(jù)域名的別名推測:1PR值對于搜索關(guān)鍵詞的匹配度作用不大:因?yàn)樵诤芏喟鄳?yīng)關(guān)鍵詞的非相關(guān)主題的網(wǎng)站具有很高的PR值
這就是Google在HillTop算法中盡量避免的東西
應(yīng)該盡其所能去列出與搜索關(guān)鍵詞相關(guān)的結(jié)果
總得看來,從過去到今天,很多搜索引擎停止了那種只使用一種有價(jià)值的算法去決定排名的做法
如
META keyword標(biāo)簽等
這只是一個開始,Google在第一步已經(jīng)完全忽略HTML header中的meta標(biāo)簽了
與不可見的meta標(biāo)簽相比,一個網(wǎng)站的可視部分使用干擾技術(shù)較在meta使用的要少,因?yàn)榭梢暡糠之吘惯€要面對大部分的實(shí)際的訪問者
算法難點(diǎn)基于“專家”文檔的HillTop算法最大的難點(diǎn)是第一次“專家文檔”的篩選,從觀察來看
Google顯然首先給了教育(.edu),政府(.gov)和非盈利組織(.org)站點(diǎn)很高的優(yōu)先級
在運(yùn)行時
Google會在龐大的內(nèi)存里儲存搜索頻率比較高的關(guān)鍵詞的索引,以備搜索者在短期內(nèi)繼續(xù)用同樣的關(guān)鍵字短語等進(jìn)行搜索
這些高頻關(guān)鍵詞還有另外一種作用,在“佛羅里達(dá)”更新之前很多人已經(jīng)注意到的了
含有那些突增的搜索關(guān)鍵字的網(wǎng)站會得到較快的更新頻率
如關(guān)于
\"SARS",每天的搜索次數(shù)數(shù)以百萬計(jì):Google就會優(yōu)先對與這個主題有關(guān)的網(wǎng)站進(jìn)行更新
回頭看一下以前每個月的“Google Dance”,也能得出以下的結(jié)論
Google也明顯地為一個關(guān)鍵詞給予一個隨機(jī)的“權(quán)重”,動態(tài)的根據(jù)關(guān)鍵詞查詢統(tǒng)計(jì)發(fā)現(xiàn)這些熱門關(guān)鍵詞,然后基于HillTop算法面向主題地找到這些含有熱門關(guān)鍵詞的網(wǎng)頁,讓這些網(wǎng)頁作為相應(yīng)關(guān)鍵詞的“專家”文檔,針對這些索引入口保持比較高的更新頻率:這點(diǎn)顯然對于應(yīng)對突發(fā)事件非常有效
而那些含有查詢頻率比較低的關(guān)鍵詞所對應(yīng)的網(wǎng)頁可能要1月才更新一次
簡單的說就是
Google會根據(jù)主題的熱門程度動態(tài)調(diào)整相應(yīng)網(wǎng)站的索引的強(qiáng)度
而Google中文用戶在總體用戶中的比例與Google索引的中文網(wǎng)頁在索引的總體網(wǎng)頁中的比例,從某種程度上說,也是有一定關(guān)系的
運(yùn)行方式Google所擁有的服務(wù)器體系架構(gòu)就是網(wǎng)絡(luò)上分布的一萬臺奔騰級服務(wù)器
而一旦了解了Hilltop算法后,我們很難相信這樣的奔騰服務(wù)器能夠具備如此的處理能力
試想一下,首先要從成千上萬的主題性文件中找到“專家文件”,然后計(jì)算目標(biāo)網(wǎng)頁自這些專家文件的鏈接的得分,然后再將數(shù)值返回 Google算法的其它排名系統(tǒng),并做進(jìn)一步處理—而所有這些要在大約0.07秒內(nèi)--這個讓Google舉世聞名的搜索速度內(nèi)完成
確實(shí)使人難以置信
運(yùn)行頻率我們認(rèn)為,要保證Google一貫的“閃電般”搜索速度,Google會對搜索頻率較高(熱門)的查詢詞(即所謂的“商業(yè)詞”黑名單)定期運(yùn)行批處理,并將結(jié)果存儲起來供日后使用
Google的數(shù)據(jù)庫擁有數(shù)目龐大的高查詢頻率的查詢詞,收集自實(shí)地搜索和其AdWords自助廣告系統(tǒng)中所使用的關(guān)鍵詞
Google很可能對關(guān)鍵詞搜索次數(shù)設(shè)置了上限值,凡搜索頻率高于此閾值的查詢詞都將被納入Hilltop系統(tǒng),然后Hilltop系統(tǒng)再對收集的所有高查詢頻率關(guān)鍵詞定期運(yùn)行批處理,可能一個月一次
增量級的稍小規(guī)模的批處理可能會頻繁一些
同時,每個月將對Hilltop系統(tǒng)運(yùn)行批處理后的結(jié)果對Google的萬臺服務(wù)器的數(shù)據(jù)庫進(jìn)行同步更新,但稍小規(guī)模的批處理的數(shù)據(jù)庫更新會更加頻繁一些
對于那些用戶查詢頻率不算高,因而無此“榮幸”被納入Hilltop算法的查詢詞語,Google仍將使用原來的算法并顯示原來的排名結(jié)果
因而對于那些高度明確或?qū)I(yè)化的關(guān)鍵詞,由于它們被排除在新算法的范圍之內(nèi),因而有望保持原來的排名
投入使用Google早在2003年2月就獲得了該專利,但在實(shí)際投入使用前,需要首先保證新算法和Google當(dāng)時所使用的頁面等級和頁面相關(guān)性系統(tǒng)的完全兼容性,所以需要對其兼容性做大量測試,然后再評估算法整合后所提供的結(jié)果,再做精工調(diào)整,然后是進(jìn)一步的繁復(fù)測試…我想所有這些都需要大量時間
在應(yīng)用中不足專家頁面的搜索和確定對算法起關(guān)鍵作用,專家頁面的質(zhì)量決定了算法的準(zhǔn)確性;而專家頁面的質(zhì)量和公平性在一定程度上難以保證
Hiltop忽略了大多數(shù)非專家頁面的影響
在Hilltop的原型系統(tǒng)中,專家頁面只占到整個頁面的1.79%,不能全面反映民意
Hilltop算法在無法得到足夠的專家頁面子集時(少于兩個專家頁面),返回為空,即Hilltop適合于對查詢排序進(jìn)行求精,而不能覆蓋
這意味著Hilltop可以與某個頁面排序算法結(jié)合,提高精度,而不適合作為一個獨(dú)立的頁面排序算法
Hilltop中根據(jù)查詢主題從專家頁面集合中選取與主題相關(guān)的子集也是在線運(yùn)行的,這與前面提到的HITS算法一樣會影響查詢響應(yīng)時間
隨著專家頁面集合的增大,算法的可伸縮性存在不足之處
請立即點(diǎn)擊咨詢我們或撥打咨詢熱線: 18942620423,我們會詳細(xì)為你一一解答你心中的疑難。項(xiàng)目經(jīng)理在線