SEO入門到精通(三):搜索引擎介紹(工作原理)
做SEO就不要搜索引擎和瀏覽器傻傻分不清楚了,這樣可是會鬧笑話的。
一、瀏覽器和搜索引擎的區別
1、瀏覽器常見的有:搜狗瀏覽器、360瀏覽器、谷歌瀏覽器、QQ瀏覽器等等,瀏覽器是指可以顯示網頁服務器或者文件系統的HTML文件(標準通用標記語言的一個應用)內容,并讓用戶與這些文件交互的一種軟件。手機瀏覽器和電腦瀏覽器功能類似。
簡單說,瀏覽器是一種軟件,主要的功能是翻譯網頁代碼,將原始網頁代碼翻譯成你看到的形形色色的頁面。
2、常見的搜索引擎有:Google、百度、搜索、360、bing等。國內無法使用Google,但是全球90%的國家都在使用Google,百度是最大的中文搜索引擎,Google是全球最大的搜索引擎。
二、搜索引擎工作原理
每個SEO從業人員,都必須要理解搜索引擎的工作原理,明白搜索引擎怎么去工作的,才能做好搜索引擎優化工作。
首先,要明白搜索引擎的工作過程是非常復雜的,但是可以簡化為三個階段:
網頁收集。通過蜘蛛(即網絡爬蟲)去爬取網頁,并抓取回來,作為原始數據存儲起來。
預處理。抓取回來的頁面不能直接被用戶搜索到,需要經過處理排序,才能參與排名。
檢索服務。用戶輸入查詢內容后,搜索引擎的排名程序調用索引庫中的數據,將用戶搜索內容進行匹配后展現給用戶。接下來,我們來深入理解這三個步驟。
1、網頁收集
搜索引擎通過蜘蛛爬取并收集互聯網上的網頁,網頁的收集是搜索引擎工作的第一步,了解搜索引的抓取機制,便于蜘蛛抓取更多的頁面,有利于網站的排名。
(1)蜘蛛是什么
網絡爬蟲,又被稱為網頁蜘蛛、網絡機器人,是按照一定的規則,自動抓取互聯網中網頁的程序或者腳本。由于互聯網被比喻為一張大網,那么在這張大網上爬取的程序,就自然被叫做蜘蛛了。
(2)蜘蛛工作方式
為了更高效的爬取互聯網上的頁面,蜘蛛需要制定爬取策略,簡單來說,爬取策略分為兩種:深度優先和廣度優先。
廣度優先:蜘蛛會優先抓取起始頁面中的全部鏈接,再選擇其中的一條網頁鏈接,繼續抓取這個頁面上的所有鏈接,這種方式可以讓蜘蛛并行抓取,提高抓取速度。如圖所示:蜘蛛從R頁面順著URL(鏈接)爬行到A1、B1、C1頁面,當R頁面鏈接抓取完后,再從A1爬取到A2、A3、A4頁面,按照這種方式一直持續下去。
深度優先:蜘蛛會從原始頁面開始抓取,發現一個鏈接,就會順著這個鏈接一直抓取下去,直到無鏈接可抓,才會返回去,抓取另一條鏈接,并持續跟蹤這條鏈接直到沒有鏈接可以抓取。蜘蛛從R頁面爬取到A1、A2、A3頁面,到A3頁面已經沒有鏈接可以爬取了,就返回到R頁面重復之前的操作。
在實際的爬取過程中,深度優先和廣度優先往往都是混合使用的,這樣既可以爬取更多的網站,又可以兼顧到更多的網站內頁。不僅如此,在爬取頁面的過程中,需要考慮的因素還有很多,比如:網頁權重、網站的規模、網站外鏈數量、網站的更新頻率等等,都會影響到頁面的爬取。這也是在以后我們做網站優化是需要考慮的問題,可以思考:下如何布置網站才容易讓蜘蛛爬取,進而提高網頁收錄。
(3)種子站點
一般來說,種子站點都是權重高、權威度高的網站,像網易、知乎、hao123等這類網站,要么是行業大站,要么是優質的導航站。蜘蛛爬行也往往以這些網站作為原始頁面進行爬取。因此在優化網站的時候,可以在這類網站上多做一些外鏈,進而吸引蜘蛛來爬取我們的站點。
(4)搜索引擎的收集機制
這點對我們的網站收錄影響很大,一定要注意。蜘蛛抓取某一網站的頻次,主要受限于網站的表現情況,若網站更新有規律,蜘蛛就會規律的進入網站進行抓取。
蜘蛛每次爬行都會把頁面數據存儲起來,如果第二次爬取發現頁面與第一次收錄的完全一樣,說明頁面沒有更新,多次抓取后蜘蛛會對網站更新頻率有一定掌握。更新頻率低的網站,蜘蛛抓取的頻次就相對較少,更新頻率高的網站,蜘蛛也會更頻繁的到訪抓取。因此優化網站時,需要定期定量更新內容,蜘蛛才會有規律抓取。
(5)文件存儲
搜索引擎會將蜘蛛抓取回來的文件存儲到原始數據庫中,并進一步的處理。如何進行處理呢?咱們下節課就會講到。
聯系方式
客服QQ:
1483340977
。
客服電話:
18038047036
。
評論