百度搜索引擎基礎知識
從(cóng)輸入關鍵詞,到百度給出搜索結果的過程,往往僅需幾毫秒即可(kě)完成。百度是如(rú)何在浩如(rú)煙海的互聯網資源中,以如(rú)此之快(kuài)的速度将您的網站(zhàn)内容展現給用戶?這背後蘊藏着什麽樣的工(gōng)作(zuò)流程和運算邏輯?事(shì)實上,百度搜索引擎的工(gōng)作(zuò)并非僅僅如(rú)同首頁搜索框一樣簡單。
搜索引擎爲用戶展現的每一條搜索結果,都(dōu)對應着互聯網上的一個頁面。每一條搜索結果從(cóng)産生(shēng)到被搜索引擎展現給用戶,都(dōu)需要經過四個過程:抓取、過濾、建立索引和輸出結果。
抓取
Baiduspider,或稱百度蜘蛛,會通過搜索引擎系統的計(jì)算,來(lái)決定對哪些網站(zhàn)施行抓取,以及抓取的内容和頻率值。搜索引擎的計(jì)算過程會參考您的網站(zhàn)在曆史中的表現,比如(rú)内容是否足夠好,是否存在對用戶不友好的設置,是否存在過度的搜索引擎優化行爲等等。
當您的網站(zhàn)産生(shēng)新内容時,Baiduspider會通過互聯網中某個指向該頁面的鏈接進行訪問(wèn)和抓取,如(rú)果您沒有設置任何外部鏈接指向網站(zhàn)中的新增内容,則Baiduspider是無法對其進行抓取的。對于已被抓取過的内容,搜索引擎會對抓取的頁面進行記錄,并依據這些頁面對用戶的重要程度安排不同頻次的抓取工(gōng)作(zuò)。
需您要注意的是,有一些抓取軟件(jiàn),爲了各種目的,會僞裝成Baiduspider對您的網站(zhàn)進行抓取,這可(kě)能是不受控制的抓取行爲,嚴重時會影(yǐng)響到網站(zhàn)的正常運作(zuò)。
過濾
互聯網中并非所有的網頁都(dōu)對用戶有意義,比如(rú)一些明顯的欺騙用戶的網頁,死鏈接,空白(bái)内容頁面等。這些網頁對用戶、站(zhàn)長和百度來(lái)說(shuō),都(dōu)沒有足夠的價值,因此百度會自(zì)動對這些内容進行過濾,以避免爲用戶和您的網站(zhàn)帶來(lái)不必要的麻煩。
建立索引
百度對抓取回來(lái)的内容會逐一進行标記和識别,并将這些标記進行儲存爲結構化的數據,比如(rú)網頁的tagtitle、metadescripiton、網頁外鏈及描述、抓取記錄。同時,也會将網頁中的關鍵詞信息進行識别和儲存,以便與用戶搜索的内容進行匹配。
輸出結果
用戶輸入的關鍵詞,百度會對其進行一系列複雜的分(fēn)析,并根據分(fēn)析的結論在索引庫中尋找與之最爲匹配的一系列網頁,按照(zhào)用戶輸入的關鍵詞所體(tǐ)現的需求強弱和網頁的優劣進行打分(fēn),并按照(zhào)分(fēn)數進行排列,展現給用戶。
您若希望通過搜索引擎爲用戶帶來(lái)好的體(tǐ)驗,需要您對網站(zhàn)進行嚴格的内容建設,使之符合用戶的浏覽需求。需要您注意的是,網站(zhàn)的内容建設始終需要考慮的一個問(wèn)題是,這對用戶是否有價值。