百度有兩項專利技術(shù),一項是搜索引擎超鏈分析技術(shù);另一項是搜索引擎投票算法,那么我們就根據(jù)百度搜索引擎排名的核心專利技術(shù)進行分析吧!我們租一個簡單概況:超鏈分析技術(shù)其實是將抓取的頁面包含超鏈接錨文本作為了衡量網(wǎng)頁相關(guān)性及權(quán)重高低的最基礎(chǔ)算法。任何一個搜索引擎都可以收錄并索引N多網(wǎng)頁快照,但是快照之間的相關(guān)性及頁面權(quán)重如何評級?例如sina、souhu、163等權(quán)威網(wǎng)站上有好排名的的超鏈接,那么至少說明了該頁面權(quán)重很高對吧?假如不但有超鏈接還有錨文本那么相關(guān)性就產(chǎn)生了對吧?例如這些權(quán)威網(wǎng)站里有我一個“搜索引擎優(yōu)化”的超鏈接至少能知道我網(wǎng)站的主體思想吧?這就是超鏈分析技術(shù)。超鏈分析算法兩個核心:一個是超鏈接的頁面評級判斷;另一個是錨文本相關(guān)性判斷;這就是李彥宏的超鏈分析專利。
一、搜索引擎超鏈分析算法
超鏈分析專利其實就是現(xiàn)實生活中類似于鏈接關(guān)系的應(yīng)用。要判斷哪個頁面最具權(quán)威性,不能光看頁面自己怎么說,還要看其他頁面怎么評價。李彥宏1997年就提交了一份名為“超鏈文件檢索系統(tǒng)和方法”的專利申請,這比GOOGLE創(chuàng)始人發(fā)明PR要早得多,不得不說這是非常具有前瞻性的研究工作。在這份專利中,李彥宏提出了與傳統(tǒng)信息檢索系統(tǒng)不同的基于鏈接的排名方法。這個系統(tǒng)除了索引頁面之外,還建立一個鏈接詞庫,記錄鏈接錨文字的一些相關(guān)信息,如錨文字中包含哪些關(guān)鍵詞,發(fā)出鏈接的頁面索引,包含特定錨文字的鏈接總數(shù),包含特定關(guān)鍵詞的鏈接都指向哪些頁面。詞庫不僅包含關(guān)鍵詞原型,也包含同一個詞干的其他衍生關(guān)鍵詞。
根據(jù)這些鏈接數(shù)據(jù),尤其是錨文字,計算出基于鏈接的文件相關(guān)性。在用戶搜索時,將得到的基于鏈接的相關(guān)性與基于關(guān)鍵詞匹配的傳統(tǒng)相關(guān)性綜合使用,得到更準(zhǔn)確的排名。
在今天看來,這種基于鏈接的相關(guān)性計算是搜索引擎的常態(tài),每個SEO人員都知道。但是在十三四年前,這無疑是非常創(chuàng)新的概念。當(dāng)然現(xiàn)在的搜索引擎算法對鏈接的考慮,已經(jīng)不僅僅是錨文字,實際上要復(fù)雜的多。一個與根據(jù)超鏈指向的查詢索引文檔相關(guān),用于檢索文檔的搜索引擎。它的索引器遍歷超文本數(shù)據(jù)庫并尋找包括超鏈指向的文檔地址與每個超鏈的錨文本在內(nèi)的超文本信息。超文本信息是貯存在一個倒排索引文件里,這個倒排索引文件亦可用于計算對于各超鏈指向的特定文檔鏈接向量。輸入查詢時候,搜索引擎找到錨文本里含有查詢詞的全部文檔的向量。此外計算了查詢向量,然后算出查詢向量跟每個文檔鏈接向量的點積。特定文檔相關(guān)點積的加總確定每一個文檔的相關(guān)性排名這份專利所有人是李彥宏當(dāng)時所在的公司,發(fā)明人是李彥宏本人。
二、搜索引擎投票排名算法
這個算法是在超鏈分析技術(shù)之后延伸的一個投票記錄算法,搜索引擎排序規(guī)則需要在搜索展現(xiàn)與訪問之間做出有效分析、對比并記錄的.無論是百度排名還是google等搜索引擎結(jié)果展示并不是很容易判斷關(guān)鍵詞與快照的權(quán)威性,如何判斷關(guān)鍵詞與實際快照的權(quán)威性呢?一定是從用戶出發(fā),根據(jù)有效搜索做出判斷,人自然檢索一個關(guān)鍵詞并訪問結(jié)果時,用戶經(jīng)常會找不到自己想要的結(jié)果,所以當(dāng)人自然檢索后雖然訪問到了您的網(wǎng)站,但不一定是有效搜索,因為最后搜索不一定會停留到您的網(wǎng)站上,假如:您搜索一個詞,打開第一位結(jié)果,發(fā)現(xiàn)不是你想要的,您肯定會繼續(xù)訪問下面的結(jié)果,直到找到你您需要的結(jié)果后才停止訪問剩余結(jié)果(也有可能您根本找不到自己想要的結(jié)果)當(dāng)您找到需要的結(jié)果后自然不會繼續(xù)訪問剩余的結(jié)果,最后停留的目標(biāo)頁面被稱之為有效搜索;雖然這個思路和算法還存在很多缺陷,但是大部分搜索引擎還是以這個算法為最佳算法,因為搜索引擎無法判斷出來關(guān)鍵詞與快照的權(quán)威性。只有通過用戶訪問需求進行對比分析、加以頁面評級增加或減少!