搜索引擎的原理,可以看做三步:從互聯(lián)網(wǎng)上抓取網(wǎng)頁(yè)→建立索引數據庫→在索引數據庫中搜索排序。?從互聯(lián)網(wǎng)上抓取網(wǎng)頁(yè)
利用能夠從互聯(lián)網(wǎng)上自動(dòng)收集網(wǎng)頁(yè)的Spider系統程序,自動(dòng)訪(fǎng)問(wèn)互聯(lián)網(wǎng),并沿著(zhù)任何網(wǎng)頁(yè)中的所有URL爬到其它網(wǎng)頁(yè),重復這過(guò)程,并把爬過(guò)的所有網(wǎng)頁(yè)收集回來(lái)。?建立索引數據庫
由分析索引系統程序對收集回來(lái)的網(wǎng)頁(yè)進(jìn)行分析,提取相關(guān)網(wǎng)頁(yè)信息(包括網(wǎng)頁(yè)所在URL、編碼類(lèi)型、頁(yè)面內容包含的關(guān)鍵詞、關(guān)鍵詞位置、生成時(shí)間、大小、與其它網(wǎng)頁(yè)的鏈接關(guān)系等),根據一定的相關(guān)度算法進(jìn)行大量復雜計算,得到每一個(gè)網(wǎng)頁(yè)針對頁(yè)面內容中及超鏈中每一個(gè)關(guān)鍵詞的相關(guān)度(或重要性),然后用這些相關(guān)信息建立網(wǎng)頁(yè)索引數據庫。?在索引數據庫中搜索排序
當用戶(hù)輸入關(guān)鍵詞搜索后,由搜索系統程序從網(wǎng)頁(yè)索引數據庫中找到符合該關(guān)鍵詞的所有相關(guān)網(wǎng)頁(yè)。因為所有相關(guān)網(wǎng)頁(yè)針對該關(guān)鍵詞的相關(guān)度早已算好,所以只需按照現成的相關(guān)度數值排序,相關(guān)度越高,排名越靠前。
最后,由頁(yè)面生成系統將搜索結果的鏈接地址和頁(yè)面內容摘要等內容組織起來(lái)返回給用戶(hù)。?搜索引擎派出一個(gè)能夠在網(wǎng)上發(fā)現新網(wǎng)頁(yè)并抓文件的程序,這個(gè)程序通常稱(chēng)之為蜘蛛。搜索引擎從已知的數據庫出發(fā),就像正常用戶(hù)的瀏覽器一樣訪(fǎng)問(wèn)這些網(wǎng)頁(yè)并抓取文件。搜索引擎會(huì )跟蹤網(wǎng)頁(yè)中的鏈接,訪(fǎng)問(wèn)更多的網(wǎng)頁(yè),這個(gè)過(guò)程就叫爬行。這些新的網(wǎng)址會(huì )被存入數據庫等待抓取。所以跟蹤網(wǎng)頁(yè)鏈接是搜索引擎蜘蛛發(fā)現新網(wǎng)址的最基本的方法,所以反向鏈接成為搜索引擎優(yōu)化的最基本因素之一。搜索引擎抓取的頁(yè)面文件與用戶(hù)瀏覽器得到的完全一樣,抓取的文件存入數據庫。