?今天是Google新聞發布日2006,大家可以看新聞發布會的實況,長達3個多小時
在發布會上Google總裁Eric Schmidt談到Google的核心還是搜索,相關人員介紹了四個新產品,其中Google Trend對關鍵詞研究很有用
最感興趣的是Google技術部門副總裁Alan Eustace談Google排名的情況
所以我只跳到這個部分看了一下,大概半小時
下面揀記得的重點介紹給大家
Alan首先談到的是蜘蛛爬行,基本上就是跟蹤所發現的鏈接
速度非常重要
上一次Google在主頁上發布的信息是,在數據庫中有80億網頁
如果每秒爬行一個網頁的話,這80億的網頁需要250多年才能爬行完
所以高速爬行網頁非常重要
爬行時的另外一個問題是,大概有50%的網頁都是重復內容
所以Google所收錄的80億其實是已經丟掉了一半后的數字,真正爬行的有可能是200億文件
爬行時還有一個危險就是無限循環
比如說跟蹤某個網頁上日歷的鏈接,可能在這個日歷上總是有“下一個月”這個按鈕,產生無限循環
因為網頁程序可以無限制的生成下一個月的月歷,Google蜘蛛就出不來了
10%到20%的網站每個月都會更新內容,更新度也很重要
然后是索引,索引就和一本書的索引差不多
比如說用戶搜索heart attack(心臟病暴發),heart出現在文件5,9,25,attack出現在文件7,9,22,那么很明顯第九個網頁是符合條件的網頁,這樣搜索范圍就已經限制在包含搜索詞的網頁內
當然這個數量還是巨大的,再怎么從這里面挑出最好的結果呢?也就是進一步計算排名
Google用兩百多個信號來計算排名,這是新信息
Alan提到了錨文字和PageRank
舉斯坦弗大學網頁作為例子,很多其他網站會連向斯坦弗大學的網頁,那么可以合理假定斯坦弗大學的網站權威性比較高,這也就是PR的意義
然后是錨文字,也就是鏈接文字
比如在斯坦弗大學的網頁上,一個以“Knight fellows”為鏈接文字的鏈接到其他網站,那么這個鏈接文字本身就在一定程度上說明了那個網頁的主題,就算在那個網頁上面Knight fellows這個詞根本沒有出現
這個排名過程必須是自動的,不可能人工去調節這些排名
Alan談到大約20%到25%的搜索關鍵詞都是獨特的,也就是說以前從來沒有別人所搜索過的
用戶都非常有創意,會以各種各樣形式組合的詞來做搜索
一個關鍵詞搜索是由上千架機器所處理的
Alan接著談到垃圾技術,比如說在留言本里留下垃圾鏈接,這種技術對Google來說早就不起作用了
再比如有的作弊的人建立大量的網站,在這些網站之間互相鏈接,這對Google也不起作用
他加了一句
對別的搜索引擎起不起作用,那就不知道了
Google在做算法調整的時候,依據是多少人受益
比如說做某個調整,40%的人會覺得搜索質量提高,40%的人覺得沒什么變化,20%的人覺得搜索質量降低,Google的決定就會是進行這個調整
不可能在100%的搜索詞下滿足100%的人
Alan還提到很多其他語言的搜索也非常困難,比如中文分詞技術
這段談話倒沒有很出人意料的地方,但Google負責技術的副總裁自己談Google排名算法就已經很難得了
等有時間再完整看一遍,看有什么新東西
來源
SEO每天一貼 Zac 昝輝
請立即點擊咨詢我們或撥打咨詢熱線: 18942620423,我們會詳細為你一一解答你心中的疑難。項目經理在線