設為首頁收藏本站

探索者SEO團隊

探索SEO者團隊 SEO服務 行業資訊 > 查看內容

網站優化:百度搜索引擎檢測網站heilian垃圾鏈接的算法實現

2014-01-23 11:48:22

網站優化:百度搜索引擎檢測網站heilian垃圾鏈接的算法實現
heilian又稱暗鏈、隱藏鏈接,是heimao手法中相當普遍的一種手段,是指用非正常手段獲取的其他網頁的反向鏈接,最常見的heilian就是通過各種網頁程序漏洞獲取搜索引擎權重或網頁級別(PR)較高的網頁的管理權限代碼(Webshell),進而在被黑網頁上鏈接自己的網頁。該手段是搜索引擎中進行作弊最有效最迅速的方法之一,在暴利行業使用尤多,例如游戲、waigua、彩鈴等業務的行業。現有的heilian檢測方法主要包括以下幾種:
       其一、網站管理人員通過經常查看網頁源代碼的方式,檢查網頁是否被掛上heilian。其二、查看網頁中的鏈接是否可訪問,如果存在未知鏈接,則懷疑被掛上heilian,刪除該未知鏈接。其三、通過FTP工具查看網頁文件的修改時間,如果存在修改時間異于大多數文件修改時間的文件,則該文件就可能被修改了文件源代碼,掛了heilian。上述幾種heilian檢測方法都需要大量的人工操作,一方面浪費人力資源,對網站管理人員的heilian知識提出較高要求,無法實現heilian的自動檢測;另一方面,對于新出現的heilian作弊方式,很難及時有效地發現。
       百度搜素引擎提供了一種檢測heilian的算法處理裝置,以便于實現heilian的自動檢測。具體技術方案如下:
       S 1、提取待檢測網頁的超鏈接,逐一對獲取的超鏈接執行heilian檢測流程.heilian檢測流程包括:Al、判斷超鏈接的視覺特征參數是否滿足預設的不可見特征要求,如果是,則確定該超鏈接為heilian。百度heilian檢測算法的測試案例中在heilian檢測流程的步驟Al中,如果判斷結果為否,則進一步執行步驟A2;A2、判斷該超鏈接的外鏈引用次數是否超過預設的次數閥值,如果是,則確定該超鏈接為heilian。
       百度heilian檢測算法的測試案例中如果所述A2的判斷結果為否,則將該超鏈接加入白名單數據庫,結束對該超鏈接的heilian檢測流程。百度heilian檢測算法的測試案例中在所述步驟Sl之前還包括:SO、將所述待檢測網頁的網址與已有的白名單數據庫進行匹配,如果匹配得上,則確定所述待檢測網頁不存在heilian,結束流程;否則繼續執行所述步驟Slo百度heilian檢測算法的測試案例中所述確定該超鏈接為heilian進一步包括:獲取該超鏈接的網頁內容特征;將獲取的內容特征與已挖掘出的惡意特征數據庫進行匹配,如果匹配得上,則確定該超鏈接為heilian。
        百度heilian檢測算法的測試案例中所述惡意特征數據庫中存儲有被識別為heilian的網頁的關鍵詞;所述將獲取的內容特征與已挖掘出的惡意特征數據庫進行匹配具體包括:將獲取的該超鏈接的網頁標題title或網頁元信息l}Zeta與所述惡意特征數據庫中存儲的關鍵詞進行匹配。
       百度heilian檢測算法的測試案例中在確定出該超鏈接為heilian后,進一步包括:從該heilian的網頁中進一步提取關鍵詞,將該關鍵詞存儲于惡意特征數據庫。百度heilian檢測算法的測試案例中在所述步驟Al中,當所述視覺特征參數為顏色設置參數時,對應的不可見特征要求為該超鏈接的顏色設置參數與所述待檢測網頁背景顏色一致;或者當所述視覺特征參數為字體參數時,對應的不可見特征要求為該超鏈接的字體參數的值小于或等于預設的字體參數閥值;或者當所述視覺特征參數為關鍵字位置參數時,對應的不可見特征要求為該超鏈接的關鍵字位置在所述待檢測網頁的可見范圍之外;或者當所述視覺特征參數為鏈接展現參數時,對應的不可見特征要求為該超鏈接以跑馬燈形式閃現或者不顯示。
       百度heilian檢測算法的測試案例中所述惡意特征數據庫存儲有被確定為heilian的鏈接;該方法還包括:從網頁庫中獲取超鏈接中包含了所述惡意特征數據庫中鏈接的網頁,對該網頁中的其他超鏈接逐一執行所述heilian檢測流程,并將檢測出的heilian加入所述惡意特征數據庫;或者,從網頁庫中找出與所述惡意特征數據庫中鏈接的網頁相似度滿足預設相似度要求的網頁,將找出的網頁作為待檢測網頁轉至步驟Sl處開始執行,然后將檢測出的heilian加入所述惡意特征數據庫。一種檢測heilian的裝置,該裝置包括:鏈接提取模塊,用于提取待檢測網頁的超鏈接,并將提取的超鏈接逐一提供給檢測模塊;檢測模塊,用于判斷超鏈接的視覺特征參數是否滿足預設的不可見特征要求,如果是,則將該超鏈接發送給heilian確定模塊;heilian確定模塊,用于將接收到的超鏈接確定為heilian。
       百度heilian檢測算法的測試案例中該裝置還包括:引用次數判斷模塊,用于在所述檢測模塊的判斷結果為否時,判斷該超鏈接的外鏈引用次數是否超過預設的次數閡值,如果是,則將該超鏈接發送給所述heilian確定模塊。百度heilian檢測算法的測試案例中該裝置還包括:白名單維護模塊,用于在所述引用次數判斷模塊的判斷結果為否時,將該超鏈接加入白名單數據庫。百度heilian檢測算法的測試案例中該裝置還包括:白名單判斷模塊,用于將所述待檢測網頁的網址與已有白名單數據庫進行匹配,如果匹配得上,則確定所述待檢測網頁不存在heilian;否則,觸發所述鏈接提取模塊。百度heilian檢測算法的測試案例中該裝置還包括:惡意特征匹配模塊,用于獲取發送給所述heilian確定模塊的超鏈接,獲取該超鏈接的網頁內容特征,將獲取的內容特征與已挖掘出的惡意特征數據庫進行匹配,如果匹配得上,則將該超鏈接發送給所述heilian確定模塊。百度heilian檢測算法的測試案例中所述惡意特征數據庫中存儲有被識別為heilian的網頁的關鍵詞;所述惡意特征匹配模塊在將獲取的內容特征與已挖掘出的惡意特征數據庫進行匹配時,具體將獲取的該超鏈接的網頁標題title或網頁元信息Meta與所述惡意特征數據庫中存儲的關鍵詞進行匹配。
       百度heilian檢測算法的測試案例中該裝置還包括:惡意特征庫維護模塊,用于在所述heilian確定模塊將該超鏈接確定heilian后,從該heilian的網頁中進一步提取關鍵詞,將該關鍵詞存儲于惡意特征數據庫。百度heilian檢測算法的測試案例中在所述檢測模塊中,當所述視覺特征參數為顏色設置參數時,采用的不可見特征要求為該超鏈接的顏色設置參數與所述待檢測網頁背景顏色一致;或者當所述視覺特征參數為字體參數時,采用的不可見特征要求為該超鏈接的字體參數的值小于或等于預設的字體參數I-7值;或者當所述視覺特征參數為關鍵字位置參數時,采用的不可見特征要求為該超鏈接的關鍵字位置在所述待檢測網頁的可見范圍之外;或者當所述視覺特征參數為鏈接展現參數時,采用的不可見特征要求為該超鏈接以跑馬燈形式閃現或者不顯示。百度heilian檢測算法的測試案例中所述惡意特征數據庫存儲有被確定為heilian的鏈接;該裝置還包括:惡意特征庫挖掘模塊,用于從網頁庫中獲取超鏈接中包含了所述惡意特征數據庫中鏈接的網頁,將該網頁中的其他超鏈接逐一提供給所述檢測模塊,并將所述heilian確定模塊確定的heilian加入所述惡意特征數據庫;或者,從網頁庫中找出與所述惡意特征數據庫中鏈接的網頁相似度滿足預設相似度要求的網頁,將找出的網頁作為待檢測網頁提供給所述鏈接提取模塊,然后將所述heilian確定模塊確定的heilian加入所述惡意特征數據庫。
       由以上技術方案可以看出,百度heilian檢測算法提供了一種自動實現heilian檢測的方式,無需手工操作,不再受限于網站管理員對heilian知識的掌握,由于百度heilian檢測算法基于heilian的基本行為特性,即不可見的視覺特征,因此即便是新出現的heilian,只要滿足該基本行為特性均能夠及時有效地發現。
      【附圖說明】
       圖1為百度heilian檢測算法實施例一提供的檢測heilian的方法流程圖;圖2為百度heilian檢測算法實施例二提供的對超鏈接的視覺特征參數進行檢測的流程圖;圖3為百度heilian檢測算法實施例四提供的檢測heilian的裝置結構圖。



具體實施方式】為了使百度heilian檢測算法的目的、技術方案和優點更加清楚,下面結合附圖和具體實施例對百度heilian檢測算法進行詳細描述。
       實施例一、圖1為百度heilian檢測算法實施例一提供的檢測heilian的方法流程圖,如圖1所示,該方法可以包括以下步驟:步驟101:將待檢測網頁的網址與已有的白名單數據庫進行匹配,如果待檢測網頁存在于白名單數據庫中,則確定該待檢測網頁不存在heilian,結束流程;否則執行步驟102。進行heilian檢測時,可以首先調用白名單數據庫進行檢測。在百度heilian檢測算法實施例中可以預先將已經確認的沒有被掛heilian的網頁的url存儲在白名單數據庫中,該白名單數據庫可以是一個動態更新的數據庫,可以采用手工方式進行添加,也可以在本實施例步驟104中確定某超鏈接安全時,將該超鏈接加入白名單數據庫。本步驟用于提**eilian的檢測效率,并不是百度heilian檢測算法的必要步驟。步驟102:提取該待檢測網頁的超鏈接,逐一對獲取的超鏈接執行步驟103至步驟106。針對待檢測網頁進行heilian檢測時,目的是為了檢測該待檢測網頁中是否被掛上了heilian,因此提取其中所有的超鏈接,逐一進行檢測。步驟103:判斷超鏈接的視覺特征參數是否滿足預設的不可見特征要求,如果是,則確定該超鏈接為可疑鏈接,執行步驟105;否則,執行步驟1040經觀察被掛的heilian通常都具有一些不可見特征,目的是為了不易被察覺,這些特征通過鏈接的視覺特征參數體現,這些視覺特征參數包括但不限于:顏色設置參數、字體參數、關鍵字位置參數、鏈接展現參數等中的一種或任意組合。當視覺特征參數為顏色設置參數時,對應的不可見特征要求可以為該超鏈接的顏色設置參數與待檢測網頁背景顏色一致。當視覺特征參數為字體參數時,其中字體參數可以為:字體大小和/或字體高度,對應的不可見特征要求可以為該超鏈接的字體參數的值小于或等于預設字體參數閥值。例如,字體大小小于1像素,或者,字體高度小于1像素等。當視覺特征參數為關鍵字位置參數時,關鍵字位置參數可以通過div標簽中的left和top參數體現,對應的不可見特征要求可以為該超鏈接的關鍵字位置在待檢測網頁的可見范圍之外。當視覺特征參數為鏈接展現參數時,鏈接展現參數可以為滾動文字(marquee)標簽中的,此時對應的不可見特征要求可以為該超鏈接以跑馬燈形式閃現;鏈接展現參數還可以為顯示屬性(display)參數,該參數可以是div標簽中的、document. write中的或者javascript中的,此時對應的不可見特征要求為該超鏈接不顯示。具體檢測將以實施例二為例進行描述。
       步驟104:判斷該超鏈接的外鏈引用次數是否超過預設的次數閥值,如果是,則確定該超鏈接為可疑鏈接,執行步驟105;否則將該超鏈接加入白名單數據庫,結束對該超鏈接的判斷流程。在通過步驟103所述的檢測方式沒有確定出可疑鏈接時,還可以通過本步驟進行進一步的判斷,如果一個超鏈接被掛在其他網頁上的次數,即外鏈引用次數,超過預設的次數閡值,說明該超鏈接多次被掛在其他網頁上,這通常是不正常的現象,例如多個視頻或音頻等網頁上均掛了一個相同的賣藥的超鏈接,則該賣藥的超鏈接很有可能就是heilian。其中預設的次數閥值通常采用經驗值。優選地,在判斷出該超鏈接的外鏈引用次數沒有超過預設的次數閥值時,可以進一步存在一個審核的步驟,待審核確認后可以將該超鏈接加入白名單,從而避免誤報。步驟105:獲取該超鏈接的網頁內容特征。在確定出可疑鏈接時,為了提高檢測準確性,可以進一步對該超鏈接進行基于內容特征的檢測。本步驟中獲取的網頁內容特征可以包括但不限于:網頁標題(title)、網頁元信息((Metes)等。步驟106:將獲取的內容特征與已挖掘出的惡意特征數據庫進行匹配,如果匹配得上,則確定該超鏈接為heilian。
       百度heilian檢測算法實施例中惡意特征數據庫的形成可以通過手工的方式預先設置,也可以通過自動挖掘的方式形成。惡意特征數據庫中至少存儲有被識別為heilian的網頁的關鍵詞,該關鍵詞可以從網頁title和/或Metes中提取,關鍵詞用于在heilian檢測過程中將超鏈接的內容特征與惡意特征數據庫進行匹配時使用,即將從超鏈接的網頁中提取的title或Metes與惡意特征數據庫中的關鍵詞進行匹配,如果匹配得上,則可以確認該超鏈接為heilian,也就是說被檢測網頁存在heilian,如果沒有匹配上,則可以確認該超鏈接為安全的鏈接。除此之外,惡意特征數據庫還可以存儲有被識別為heilian的網頁url,用于進行惡意特征數據庫的進一步挖掘,該過程將在實施例三中詳細描述。
       在此從確定出的heilian的網頁中進一步提取關鍵詞,將該關鍵詞存入惡意特征數據庫,并將該heilian存入惡意特征數據庫。在確定出heilian之后,可以將heilian和掛heilian的網頁(即待檢測網頁)進行上報。需要說明的是,上述步驟105和步驟106可以是進一步的過程,如果不需要足夠高的準確度,也可以直接將可疑鏈接確定為heilian。
       實施例二、圖2為百度heilian檢測算法實施例二提供的對超鏈接的視覺特征參數進行檢測的流程圖,如圖2所示,該流程可以具體包括以下步驟:步驟201:獲取超鏈接的顏色設置參數。步驟202:判斷該顏色設置參數是否與被檢測網頁的網頁背景顏色設置一致,如果是,則確定該超鏈接為可疑鏈接;否則執行步驟2030如果超鏈接的顏色設置與其被掛在的網頁背景顏色設置一致,這種情況該超鏈接不易被察覺,很有可能是heilian。這種heilian實現代碼為:<a href=http://www. xxx. com/style=’‘color:#FFFFFF;’‘)關鍵字</a>步驟203:獲取該超鏈接的字體大小(font-size)參數和字體高度(line-size)參數。本步驟是獲取超鏈接的字體參數。步驟204:判斷font-size或line-size是否小于或等于1像素,如果是,則確定該超鏈接為可疑鏈接;否則執行步驟2050此處1像素是采用的一個經驗值,如果超鏈接的鏈接文字大小小于或等于1像素,則不易被察覺,很有可能為heilian。這種heilian實現代碼為:<a herf=http:/; www. xxx. com/style=”font-size:lpx;’‘>關鍵字</a} <a herf=http:/jwww. xxx. com/style=’‘line-height:lpx;’‘)關鍵字</a}步驟 205:獲取該超鏈接所對應標簽中的關鍵字位置參數。例如,獲取超鏈接所對應div標簽中的top和left參數。步驟206:根據該關鍵字位置參數判斷該超鏈接是否位于被檢測網頁的可見范圍之外,如果是,確定該超鏈接為可疑鏈接;否則執行步驟207如果鏈接的關鍵字位于其鎖掛在的網頁可見范圍之外,則不易被察覺,很有可能為heilian,例如偏離屏幕左上角999像素,在屏幕上是顯示不到的,再例如如果其位置參數為一個較大的負值,在屏幕上也是顯示不到的。其heilian實現代碼為:<div  style=’‘position:absolute;top:-999px;lefi:-999px;”><a herf=http:/; www. xxx. com>關鍵詞</a></div>或者<div  style’‘position:absolute;left:expression_ r (1-900) ;top:expression_ r (3-999);’‘><a href=http:/; www. xxx. com/>關鍵字</a><%div>步驟207:獲取超鏈接所對應的marquee標簽中的鏈接展現參數。步驟208:判斷該marquee標簽中的鏈接展現參數是否為跑馬燈形式閃現,如果是,則確定該超鏈接為可疑鏈接;否則執行步驟2090如果marquee標簽中的長度和高度參數為1或者。則說明該超鏈接以跑馬燈形式閃現,不易被察覺,很有可能是heilian。這種heilian實現代碼為:<marquee  height=1 width=1 scrollamount=3000 scrolldelay=20000Wahref=http://www. xxx. com>關鍵詞</aW/marquees除了從超鏈接的marquee標簽直接判斷之外,還可以采用檢測超鏈接腳本(javascript)中marquee標簽的方式來判斷,如果腳本中marquee標簽指示調用跑馬燈形式閃現,同樣確定為heilian。此種heilian實現代碼為:<script  language=’‘javascript’‘type=’‘text/javascript”>document. write(”<marquee scrollAmount=5000 width=‘1‘height=‘5‘>’‘);</scripts<diW<a href=’‘http://www. xxx. com/’‘title=’‘關鍵字’‘>關鍵字</a} <script  language=’‘javascript’‘type=’‘text/javascript”>document. write(’‘</marquees'‘);</scripts步驟209:獲取超鏈接所對應標簽的display參數。步驟210:判斷display參數是否為none,如果是,則確定該超鏈接為可疑鏈接;否則,轉至實施例一中的步驟1040其中display參數可以是div標簽中的,如果div標簽中出現display:none,則表明其屬性為不顯示,有可能該超鏈接為heilian。這種heilian的實現代碼為:<a herf=http://www. xxx.com style=’‘display:none’‘>關鍵詞</a}或者<div  style=’‘display:none;’‘><a href=http:j /www. xxx. com/>關鍵字</a></div>另外,display參數也可以該超鏈接的document.write中的,如果document.write中出現display:none,則表明其屬性為不顯示,有可能該超鏈接為heilian。這種heilian的實現代碼為:<script  language=‘javascript’‘type=‘text/javascript’‘>document. write(’‘<div style=‘display:none;‘>’‘)</script>WdiW<ahref=http:j /www. xxx. com/>關鍵字</a}<script  language=’‘javascript’‘type=‘text/javascript’‘>document. write(’‘</div>’‘);</script>另外,d i sp 7 ay參數也可以該超鏈接的javascrip七中的,如果javascript中出現display:none,則表明其屬性為不顯示,有可能該超鏈接為heilian。這種heilian的實現代碼為:<div  id=’‘關鍵字’‘><a href=’‘http : //www. xxx. com">關鍵字</a}</diW<script language=javascript document.getElementBy工d(關鍵字).style. display=’‘none’‘</scripts需要說明的是,本實施例中各步驟的實現可以采用其中的一種或任意組合的方式以任意順序實現,木實施例所示的僅是一種優選實例。
       實施例三、在該實施例中主要對惡意特征數據庫的挖掘過程進行描述,首先說明惡意數據庫的挖掘來源,在此主要存在兩種來源:第一種來源:包含heilian的網頁中的其他超鏈接。如果確定出某鏈接為heilian,則說明掛了該鏈接的網頁存在漏洞,很有可能還掛有其他heilian,因此,可以從網頁庫中獲取超鏈接中包含了惡意特征數據庫中鏈接的網頁,該對該網頁中的其他超鏈接逐一執行百度heilian檢測算法實施例一中步驟103至步驟106所述的檢測heilian的方式來檢測其他超鏈接是否為heilian。當然,如實施例一種所述,也可以僅采用步驟103的方式檢測heilian,也可以采用步驟103至步驟101檢測heilian。如果檢測到其他超鏈接中存在heilian,則將檢測出的heilian加入惡意特征數據庫。第二種來源:從網頁庫中找出與惡意特征數據庫中的網頁相似度滿足預設相似度要求的網頁,將該網頁作為待檢測網頁執行百度heilian檢測算法實施例一所述的檢測方法來檢測該待檢測網頁中是否包含heilian,并將檢測出的heilian加入惡意特征數據庫。之所以采用這種挖掘來源,是因為攻擊者在掛heilian時通常會采用具有相似性的網頁。
       當采用了上述惡意特征數據庫的挖掘方式之后,使百度heilian檢測算法實施例提供的heilian檢測方法形成了一個迭代,可以利用惡意網頁數據庫對網頁進行檢測確定是否存在heilian,而對于挖掘到heilian的網頁又可以作為惡意網頁數據庫的挖掘來源或者作為特征從網頁庫中為惡意網頁數據庫中選取挖掘來源。以上是對百度heilian檢測算法所提供的方法進行的描述,下面通過實施例四對百度heilian檢測算法所提供的裝置進行詳細描述。
       實施例四、圖3為百度heilian檢測算法實施例四提供的檢測heilian的裝置結構圖,如圖3所示,該裝置包括:鏈接提取模塊301、檢測模塊302以及heilian確定模塊3030鏈接提取模塊301提取待檢測網頁的超鏈接,并將提取的超鏈接逐一提供給檢測模塊3020檢測模塊302判斷超鏈接的視覺特征參數是否滿足預設的不可見特征要求,如果是,則將該超鏈接發送給heilian確定模塊303。這些視覺特征參數包括但不限于:顏色設置參數、字體參數、關鍵字位置參數、鏈接展現參數等中的一種或任意組合。在檢測模塊302中,當視覺特征參數為顏色設置參數時,采用的不可見特征要求為該超鏈接的顏色設置參數與待檢測網頁背景顏色一致;或者當視覺特征參數為字體參數時,采用的不可見特征要求為該超鏈接的字體參數的值小于或等于預設的字體參數閏值;或者當視覺特征參數為關鍵字位置參數時,采用的不可見特征要求為該超鏈接的關鍵字位置在待檢測網頁的可見范圍之外;或者當視覺特征參數為鏈接展現參數時,采用的不可見特征要求為該超鏈接以跑馬燈形式閃現或者不顯示。heilian確定模塊303將接收到的超鏈接確定為heilian。除此之外,heilian確定模塊303可以進一步上報確定出的heilian以及被掛了heilian的網頁。為了提高檢測效率,該裝置還可以包括:白名單判斷模塊300,在檢測開始時,該白名單判斷模塊300首先被調用,用于將待檢測網頁的網址與已有白名單數據庫進行匹配,如果匹配得上,則確定待檢測網頁不存在heilian;否則觸發鏈接提取模塊3010在百度heilian檢測算法實施例中可以預先將已經確認的沒有被掛heilian的網頁的url存儲在白名單數據庫中,該白名單數據庫可以是一個動態更新的數據庫。
       更進一步地,如果一個超鏈接被掛在其他網頁上的次數,即外鏈引用次數,超過預設的次數閥值,說明該超鏈接多次被掛在其他網頁上,這通常是不正常的現象,例如多個視頻或音頻等網頁上均掛了一個相同的賣藥的超鏈接,則該賣藥的超鏈接很有可能就是heilian。針對于此,該裝置還可以包括:引用次數判斷模塊304,用于在檢測模塊302的判斷結果為否時,判斷該超鏈接的外鏈引用次數是否超過預設的次數閥值,如果是,則將該超鏈接發送給heilian確定模塊303。其中預設的次數閥值通常采用經驗值。如果引用次數判斷模塊304的判斷結果為否,則說明該超鏈接安全,對于此,該裝置還可以包括:白名單維護模塊305,用于在引用次數判斷模塊304的判斷結果為否時,將該超鏈接加入白名單數據庫。為了進一步提高檢測準確性,該裝置還可以包括:惡意特征匹配模塊306,用于獲取檢測模塊302以及引用次數判斷模塊304發送給heilian確定模塊303的超鏈接,獲取該超鏈接的網頁內容特征,將獲取的內容特征與已挖掘出的惡意特征數據庫進行匹配,如果匹配得上,則將該超鏈接發送給heilian確定模塊303。也就是說,檢測模塊302以及引用次數判斷模塊304經過判斷后,如果判斷結果為是,可以首先確定該超鏈接為可疑鏈接,然后經由惡意特征匹配模塊306的匹配之后,在進一步確定該可疑鏈接是否為heilian。其中,惡意特征數據庫中存儲有被識別為heilian的網頁的關鍵詞;此時,惡意特征匹配模塊306在將獲取的內容特征與已挖掘出的惡意特征數據庫進行匹配時,可以具體將獲取的該超鏈接的網頁title或Meta與惡意特征數據庫中存儲的關鍵詞進行匹配。另外,該裝置還可以包括:惡意特征庫維護模塊307,用于在heilian確定模塊303將該超鏈接確定heilian后,從該heilian的網頁中進一步提取關鍵詞,將該關鍵詞存儲于惡意特征數據庫。
       上述惡意特征數據庫的形成可以通過手工的方式預先設置,也可以通過自動挖掘的方式形成。惡意特征數據庫存儲有被確定為heilian的鏈接,為了實現惡意特征數據庫的挖掘,該裝置還包括:惡意特征庫挖掘模塊308,從網頁庫中獲取超鏈接中包含了惡意特征數據庫中鏈接的網頁,將該網頁中的其他超鏈接逐一提供給檢測模塊302,并將heilian確定模塊303確定的heilian加入惡意特征數據庫;或者,從網頁庫中找出與惡意特征數據庫中鏈接的網頁相似度滿足預設相似度要求的網頁,將找出的網頁作為待檢測網頁提供給鏈接提取模塊301,然后將heilian確定模塊303確定的heilian加入惡意特征數據庫。
       在采用百度heilian檢測算法的上述實施例檢測出heilian以及被掛了heilian的網頁之后,可以方便對被掛了heilian的網頁進行漏洞掃描和安全加固。例如,可以進行端口掃描、系統漏洞掃描或web安全漏洞掃描等等。具體的漏洞掃描和安全加固方式百度heilian檢測算法并不加以限制。由以上描述可以看出,百度heilian檢測算法提供的方法和裝置具備以下優點:1)能夠自動實現heilian的檢測,無需手工操作,不再受限于網站管理員對heilian知識的掌握。 2)百度heilian檢測算法基于heilian的基本行為特性,即不可見的視覺特征,因此即便是新出現的heilian,只要滿足該基本行為特性均能夠及時有效地發現。3)對于基于不可見的視覺特性無法檢測出的heilian,能夠進一步采用基于外鏈引用次數的判別方式,從而提**eilian檢測的覆蓋率。4)在基于不可見的視覺特性和外鏈引用次數的判別方式之外,進一步對可疑的超鏈接進行基于惡意特征數據庫的匹配,從而提**eilian的檢測正確率。5)百度heilian檢測算法還額外提供了惡意特征數據庫的挖掘方式,這種挖掘方式使heilian檢測方法形成了一個迭代,從而使得heilian檢測更加趨近于豐富和高覆蓋率。

( 京ICP備16023733號-5 )|網站地圖  

GMT+8, 2020-01-03 15:37

返回頂部
必威竞猜