今天爬網的時候看到又有一篇寫什么搜索引擎怎么爬網頁,怎么搜集數據什么的。其實無非就是那幾點。認識蜘蛛、網站收錄指數、web網頁設計。下面來分開來看一下。
1、蜘蛛
蜘蛛的工作職責是發現新的網頁并收集這些網頁的快照,然后分析該網頁。
蛛蜘以抓取頁面為主,比如掃描網頁,所有的搜索引擎都能夠實現深層檢索和快速檢索。在深層檢索中,蜘蛛可以查找和掃描網頁內的所有內容;在快速檢索中,蜘蛛不遵循深層檢索的規則,只搜索重要的關鍵詞部分,而不檢查和掃描網頁里的所有內容。
大家都知道網站最重要的是快照時間,也就是說蜘蛛爬行和收錄的網頁速度越快,就說明這個網站在搜索引擎心中越重要,比如新華網和人民網,蜘蛛每小時爬4次以上,有的網站一個月也不見得能被蜘蛛爬一次。快照的抓取程度取決于網站內容的流行度、更新速度與網站域名的新舊。
在蜘蛛的爬行規則中,如果有許多外部鏈接指向這個網站,那就說明這個網站比較重要,所以抓取這個網站的頻率很高。當然,搜索引擎這樣做也是為了省錢,如果都以同樣的頻率爬行所有網站,這樣需要更多的時間和成本,才能得到更全面的搜索結果。
2、指數
蜘蛛在爬行的過程中,可能會重復檢查網頁的內容,然后查看網站內容是否是復制其他網站的,以保證網站原創內容的指數,該指數的結果一般都是基本保持復制內容的排序搜索結果。當你進行搜索時,搜索引擎不會從網絡上搜索,它會從指數中選擇搜索結果,所以搜索得到的網頁數量并不能代表整個網站,但蜘蛛會在后臺掃描和保存網站的網頁數量。
在搜索結果數量中,谷歌1-10個搜索結果約為16.05萬,還有每個區域的搜索結果排名,這些都可以用搜索引擎的算法指數來控制,或者說是控制一部分。
每個搜索引擎在全國或全世界各地都建立數據中心,當你輸入需要搜索的關鍵詞的時候,會由于數據更新的時間不同而致搜索結果同步,所以在不同的地區就會出現不同的搜索結果。
3、Web界面
當你使用搜索引擎所看到的界面(比如google.com、baidu.com),搜索結果取決于復雜的算法,算法都是從指數內調用結果,通過查詢并分析才能在前臺顯示,所以算法的制作時間比較長,谷歌在這個技術領域上領先。
還有一些搜索引擎的“一站式”特性,這類特性在英文搜索上比較常見,一般來說,搜索引擎忽略“一站式”的話,這樣的搜索結果將更加正確,比如搜索“貓,狗”的時候,搜索引擎會排除“貓和狗”,只搜索“貓”“狗”。
關鍵詞密度是衡量一個關鍵詞出現在網頁上的頻率,一般搜索引擎看到某網頁上的關鍵詞超過密度范圍,那它就會分析該網頁是否作弊,現在搜索引擎可以做到任何地域的字詞相關度處理。所以在一般情況下,關鍵詞應該在整個網頁中分散,但一定要有某個標題或段落長期不變。
搜索引擎還有個核心分析技術就是鏈接的相關性分析,除了網頁排名和一般的鏈接,谷歌還看重錨文本鏈接,錨文本鏈接主要在于鏈接的年齡和位置,還有該鏈接的網頁是否屬于權威網站等。
鏈接是最大的網站質量指標,搜索引擎都很關注著,因為現在友情鏈接比較難找,而你又很需要友情鏈接,所以鏈接中很少有垃圾信息。比如大學的網站在谷歌的權重很高,那是由于大學有很多高質量的外部鏈接。隨著大家都了解到外部鏈接的重要性后,很多網站開始買賣鏈接,這也是現在搜索引擎比較頭疼的問題,不過ask現在判定網站排名更多在于網站的質量。
所有的搜索引擎都希望得到用戶反饋的信息,他們期待在查詢之前、搜索查詢、時間間隔、和語義關系等方面,能更加了解到用戶的意圖,他們還會跟蹤用戶的點擊,如果用戶點擊一個物品,然后又馬上回到搜索頁面,那搜索引擎就會認為這個購買不成功,會刪除跟蹤清單,其實這種做法已經在向電子商務靠近了。
由此可以看出,搜索引擎已經開始注重用戶體驗,為了做讓用戶肯定自己的勞動成果,并成為搜索引擎行業的一個標準,或許未來的發展就在個性化搜索。
上一篇:
最新2010年增加網站外鏈的方法匯總
下一篇:網站優化過程中幾個簡單問題