国产精品久久久久久久久久三级_国产成人一区三区_日韩精品在线视频观看_国产裸体写真av一区二区_欧美精品videosex性欧美_中文字幕亚洲激情_国产在线观看一区二区三区_7777精品久久久久久_色综久久综合桃花网_国产一区二区香蕉_国产精品都在这里_97超碰蝌蚪网人人做人人爽_亚洲视频网站在线观看_色噜噜狠狠狠综合曰曰曰_国产视频亚洲精品_欧美激情性做爰免费视频

蜘蛛池出租蜘蛛池出租

蜘蛛池網站收錄技術

站群收錄:面向網站群的主題爬蟲研

引言

從 Web 上收集特定主題數據的技術可分為兩類:

①基于搜索的發現技術[1-3],主要依靠搜索引擎查找網頁;

②基 于爬行的發現技術[4-6],主要利用 Web 鏈接結構從已下載的 網頁中提取新鏈接,從而發現更多潛在的目標網頁。

前者 適用于存在一些關鍵字可區分主題數據和其它數據的情 況,后者靈活性更強,代表技術就是聚焦爬蟲。 與普通爬蟲相比,聚焦爬蟲有明確的目標指向性,在 爬取網頁過程中能夠丟棄不相關頁面,并始終跟蹤可能導 向“相關”頁面的超鏈接,因而能更有效地收集特定主題的 數據。聚焦爬蟲框架與一般爬蟲基本相同,也即是說,它 從幾個種子鏈接(Seed URL)開始,下載相關頁面并提取其 中包含的超鏈接,然后跟蹤這些超鏈接以獲取更多頁面。 不斷重復該過程,直到無法以這種方式找到更多網頁。

聚 焦爬蟲的特殊之處在于,其會引入兩個分類器——路徑判 別器目標判別器,以決定某個超鏈接是否值得進一步訪 問,以及某頁面是否值得保存。其中,路徑判別器負責判 斷鏈接值得跟蹤與否,目標判別器負責根據網頁與主題相關與否對其進行歸類。 聚焦爬蟲研究主要集中在 3 個方面:

一是如何獲得更 有效的分類器,例如使用在線學習策略構建路徑判別器 (目標判別器依然需要進行預訓練)[7,14-18];

二是如何獲得更 好的種子鏈接,

例如維埃拉等[3] 利用 Bing 搜索引擎,使用相 關反饋(Relevance Feedback)收集種子;

三是如何設計更好 的爬行策略[8-12,19-22]。盡管這些研究從各個方面對聚焦爬 蟲進行了改進,預先訓練分類器的工作仍不可省略,因此 造成了爬蟲使用的不便。

由于其分類器是任務相關的,換 一個目標主題就要重新手動構建數據集進行訓練。 

最近,KIEN[13] 將聚焦爬行描述為一個排序問題,其跳 過分類器訓練,只使用一些示例網站作為輸入。從樣本網 站中提取關鍵詞,再通過關鍵字搜索、前向爬行和后向爬 行擴展樣本網站集,其設計的系統根據與當前樣本網站的 相似性選擇新的樣本網站。結果表明,通過適當的相似性 度量,基于排序的聚焦爬蟲可取得與基于分類器的聚焦爬 蟲相似的性能表現。但其問題設置與本文不同,其目標是 得到相關網站,而不是網頁。因此,以上實踐啟發了本文 用排序器替換預訓練分類器構建自舉聚焦爬蟲,以解決網 站群內部的主題網頁發現問題。 本 文 設 計 一 種 自 舉 聚 焦 爬 蟲(Bootstrapping Focused Crawler,簡稱 BFC),該方法為聚焦爬蟲提供一些示例網頁, 而不是預先訓練的分類器,從而可略過繁復的分類器訓練 過程。該方法適用于特定網站群中的主題數據收集,例如 收集各大學錄取信息、各公司招聘信息、各政府網站的政 策信息等。圖 1 展示了兩個爬取任務示例。任務難點在 于,上千所高校、公司雖然網站架構類似,但每個節點對應 的超鏈接文字用詞千差萬別,路徑深度與目標頁面特征也 存在顯著差異。因此,在不預訓練分類器的前提下,只提 供少量樣例網頁充當爬蟲向導,是一種新的嘗試。 由于特定網站群是眾多一手信息的源頭,如果能及 時、有效地收集相關信息并匯聚起來,將極大地降低信息 瀏覽門檻,并催生出數據可視化等應用。因此,本文提出 的網站群爬蟲具有很強的現實意義

image.png

image.png

1 網站群爬蟲爬取任務示例 

注:粗體字表示爬蟲從網站根節點出發的最優爬行路徑


1 自舉聚焦爬蟲 自舉聚焦爬蟲框架如圖 2 所示

image.png


2 自舉聚焦爬蟲框架 程序有兩個輸入:

一個是網站群站點(Website)列表, 一個是少量樣例網頁,每個樣例網頁包含其所在站點的根 鏈接和自身鏈接這一對元素。

首先,對樣例網頁進行路徑 提取與特征提取。在傳統聚焦爬蟲框架下,需要一個能引 導爬蟲到目標節點的向導(路徑判別器),以及能夠區分目 標節點與其它節點的評委(目標判別器)。路徑提取目標 是構建路徑判別器,而特征提取目標是構建目標判別器。 區別在于,本文提出的自舉聚焦爬蟲用相似度排序模塊替 代傳統框架下的目標判別器,用類似于強化學習的手段在 · 110 ·8 期 線構建路徑判別器。然后利用兩個判別器從輸入的網站 群根節點開始循環抓取網頁,并不斷把最相關的網頁加入 網頁樣例庫,用于更新兩個判別器。該流程循環進行,直 到無法發現更多網頁或達到迭代次數上限為止。 1.1 路徑判別器 

路徑判別器本質上是一個二分類器:輸入一個超鏈接 短文本,輸出其是否與要爬取的主題相關,或沿著該鏈接 是否能找到與主題相關網頁。在網站群爬蟲這個具體應 用場景中,存在一條從站點根節點到當前頁面的超鏈接路 徑(見圖 1),可利用這條路徑上的前序文本增強當前鏈接 短文本的判斷準確度。因此,本文通過路徑提取將傳統路 徑判別器的單一短文本輸入擴充為短文本列表。 在頁面爬取過程中,對每個待判別的路徑 t 打分,如果 分數大于閾值,則判定為相關鏈接。計算公式如下: f (t) = ?w ? tαw 其中,超文本 w 是路徑 t 中的詞,αw w 的權重,其 初始化使用了樣例庫提供的信息。具體而言,本文把從樣 例網頁中提取的路徑集中起來,分詞后統計每個詞的詞 頻,形成各詞的初始權重。其它詞默認初始權重為-1,以 懲罰路徑中存在過多未知詞。在爬取過程中,αw 采用類似 強化學習的策略進行更新。每當一個路徑 t 被判定為相 關,其包含詞的對應權重都消耗 1;每當找到一個目標網 頁,其對應路徑中的詞權重獎勵 2。


1.2 相似度排序 

在目標判別環節,本文用排序器替換預訓練的分類 器。

具體而言,爬蟲根據訪問頁面與示例網頁的相似性對 其進行排序,將相似度大于閾值的網頁作為相關網頁輸 出,并同時將排名前 p%的網頁添加到示例庫,開始下一輪 迭代。 在計算網頁相似度時,采用以下公式: s( x) = -dcos( xx) 其中,dcos 是余弦距離,x 是從待評估網頁標題和內容 中提取文本的詞袋模型(Bag of Words)向量表示,x 是樣例 網頁整合成單一文檔生成的詞袋模型向量表示。該公式 計算的相似度是目標網頁與樣例庫的總體平均相似性。 

2 爬取效果

2.1 實驗任務與數據集 

本文按照中國大學排行榜,收集了中國排名前 200 的 大學官方網站頁面集合作為實驗數據集。為檢驗爬蟲性 能,定義主題爬取任務如下:獲取高校歷史錄取分數相關 頁面。本文手動標記每個站點與所需主題相關頁面(URL) 作為真實標簽,數據集頁面總數為 41 600,其中正樣本數量 為 1 033。 為得到樣例網頁庫作為算法輸入,本文從 200 個網站 中隨機抽取 3 個網站,并為每個網站標記一個示例頁面,得 到 3 個樣例(每個樣例含有一對數據,即目標網頁的 URL 以 及所在網站根節點的 URL)。通過對 4 組使用不同樣例集 的爬蟲計算平均得分,得到 BFC 性能得分。 

2.2 效果展示 

本 文 選 取 傳 統 聚 焦 爬 蟲(FC)作 為 基 線 算 法 進 行 對 比。出于公平性考慮,FC 所需分類器基于樣例網頁庫的少 量正樣本,采用 KNN 算法獲得。本文提出的自舉聚焦爬蟲 (BFC)與基線算法 FC 在高校歷史錄取分數爬取任務中的 表現對比如表 1 所示。 1 BFC FC 在錄取分數爬取任務中表現對比 FC BFC Precision 0.62 0.35 Recall 0.16 0.62 F1 0.25 0.45 由表 1 可以看到,BFC 的準確率(Precision)比傳統方法 FC 低很多,其原因是 FC 爬取頁面數量較少,以極低的召回 率(Recall)為代價獲得了較高準確率。然而,在爬蟲實際 使用過程中,召回率更為重要,因為要盡可能全面地收集 所需信息,而在自動篩選環節一旦遺漏相關信息,就很難 再找到目標網頁。在召回率方面,BFC 的表現遠好于 FC。 綜合準確率和召回率的指標 F1-Score 也顯示 BFC 的性能 優于 FC。 爬取部分結果如

3 所示。圖中 name 列輸出爬取站 點,url 列輸出任務相關頁面網址,path 列輸出從網站根節 點到頁面的路徑,score是該頁面相關性得分

image.png

參考文獻: 

1DISHENG Q,LUCIANO B,XIN Let al. Dexterlarge-scale discov? ery and extraction of product specifications on the webC. Proceed? ings of the VLDB Endowment,20152194-2205. 

2XUEZHI W,CONG YSIMON B,et al. Relevant document discovery for fact-checking articlesC. In Companion Proceedings of the Web Conference,2018525-533. 

3KARANE V,LUCIANO BALTIGRAN S D S,et al. Finding seeds to bootstrap focused crawlersC. In The World Wide Web Confer? ence,2016449-474. 

4LUCIANO B,SRINIVAS B,VIVEK K R S. Crawling back and forthusing back and out links to locate bilingual sitesC. In Proceedings of 5th International Joint Conference on Natural Language Processing2011429-437. 

5TSUYOSHI M. Finding related web pages based on connectivity infor? mation from a search engineC. In WWW Posters,2001. 

6LUCIANO B. Harvesting forum pages from seed sitesC. In Interna? tional Conference on Web Engineering2017457-468. 

7MCCALLUM A,NIGAM K,RENNIE Jet al. A machine learning ap? proach to building domain-specific search enginesC. Proceedings of the Sixteenth International Joint Conference on Artificial Intelli? gence,1999662-667. 

8MICHAEL H,MICHAL J,YOELLE S Met al. The shark-search al? gorithm. An applicationtailored Web site mappingJ. Computer Networks & Isdn Systems,1998,301-7):317-326. 9BERGMARK D,LAGOZE C,SBITYAKOV A. Focused crawls,tun? nelingand digital libraries C. Proceedings of the 6th European Conference on Research and Advanced Technology for Digital Librar? ies,2002. 10MARISTELLA ACOSTANTINO T. Research and Advanced Tech? nology of digital librariesM. Springer Berlin Heidelberg,200291-106. 

11] 葉勤勇. 基于 URL 規則的聚焦爬蟲及其應用[D. 杭州:浙江大 學,2007 

12BRA P M E D,POST R D J. Information retrieval in the World-Wide Webmaking client-based searching feasibleJ. Computer Net? works & Isdn Systems1994,272):183-192. 

13KIEN PAECIO S,JULIANA F. Bootstrapping domain-specifific con? tent discovery on the WebC. In The World Wide Web Conference, 20191476-1486. 

14] 傅向華,馮博琴,馬兆豐,等. 可在線增量自學習的聚焦爬行方法 [J. 西安交通大學學報,2004386):599-602. 

15] 劉國靖,康麗,羅長壽. 基于遺傳算法的主題爬蟲策略[J. 計算機 應用,20072712):172-174. 

16] 曾廣樸,范會聯. 基于遺傳算法的聚焦爬蟲搜索策略[J. 計算機 工程,20103611):167-169. 

17] 童亞拉. 自適應動態演化粒子群算法在 Web 主題信息搜索中的應 用[J. 武漢大學學報(信息科學版),20083312):1296-1299. 

18] 賀晟,程家興,蔡欣寶. 基于模擬退火算法的主題爬蟲[J. 計算機 技術與發展,2009,1912):55-58. 

19] 宋海洋,劉曉然,錢???/span>. 一種新的主題網絡爬蟲爬行策略[J. 計 算機應用與軟件,2011,2811):264-267. 

20] 謝志妮. 一種新的基于概念樹的主題網絡爬蟲方法[J. 計算機與 現代化,20101764):103-106. 

21] 左薇,張熹,董紅娟,等. 主題網絡爬蟲研究綜述[J. 軟件導刊, 2020,192):278-281. 

22] 韓 瑞 昕. 基 于 時 效 性 的 爬 蟲 調 度[J. 軟 件 導 刊 ,2020,191): 108-112.

|轉載請注明來源地址:蜘蛛池出租 http://m.gzxyxkj.cn/
專注于SEO培訓,快速排名黑帽SEO https://www.heimao.wiki

版權聲明:本文為 “蜘蛛池出租” 原創文章,轉載請附上原文出處鏈接及本聲明;

原文鏈接:http://m.gzxyxkj.cn/post/48718.html

上一篇: 其他

相關文章

評論列表

發表評論:

◎歡迎參與討論,請在這里發表您的看法、交流您的觀點。

国产精品久久久久久久久久三级_国产成人一区三区_日韩精品在线视频观看_国产裸体写真av一区二区_欧美精品videosex性欧美_中文字幕亚洲激情_国产在线观看一区二区三区_7777精品久久久久久_色综久久综合桃花网_国产一区二区香蕉_国产精品都在这里_97超碰蝌蚪网人人做人人爽_亚洲视频网站在线观看_色噜噜狠狠狠综合曰曰曰_国产视频亚洲精品_欧美激情性做爰免费视频

    中文一区字幕| 国语自产在线不卡| 欧美国产综合视频| 国产一区二区在线观看免费播放| 99视频热这里只有精品免费| 亚洲图片欧洲图片日韩av| 欧美一区二区在线免费播放| 欧美精品一区二区三区很污很色的| 亚洲国产精品电影在线观看| 老司机精品福利视频| 亚洲精品日本| 国产精品高清在线| 美女精品在线观看| 国产精品久久久久一区二区三区| 国产九区一区在线| 久久久久久欧美| 母乳一区在线观看| 欧美国产日韩一区| 欧美精品网站| 欧美性jizz18性欧美| 亚洲欧美999| 欧美国产高清| 国外精品视频| 国产一区久久| 欧美在线地址| 国产精品户外野外| 欧美在线不卡| 亚洲图片欧洲图片日韩av| 亚洲精品欧美在线| 国产性做久久久久久| 国产中文一区二区三区| 国产一区二区三区高清在线观看| 亚洲女人小视频在线观看| 韩国三级电影久久久久久| 欧美精选在线| 亚洲精品国偷自产在线99热| 欧美日韩精品综合| 亚洲日韩视频| 久久国产精品久久久| 先锋影音国产一区| 国产精品影片在线观看| 国产视频一区二区三区在线观看| 亚洲日本成人网| 另类激情亚洲| 欧美性大战久久久久久久| 欧美日韩精品二区| 一区二区三区产品免费精品久久75| 一本久道久久综合中文字幕| 在线一区二区视频| 黄色在线一区| 欧美电影在线观看完整版| 国产一区二区电影在线观看| 国产一区二区在线免费观看| 欧美日韩不卡视频| 久久爱另类一区二区小说| 欧美在线免费观看| 亚洲黄色精品| 亚洲女与黑人做爰| 国产伦精品免费视频| 亚洲在线免费观看| 久久精品在线视频| 欧美国产亚洲精品久久久8v| 国内精品模特av私拍在线观看| 久久精品官网| 亚洲在线中文字幕| 国产欧美一区二区精品性色| 一区二区三区国产精华| 激情六月综合| 午夜精品视频在线观看一区二区| 国产精品福利片| 亚洲欧美一区二区激情| 欧美伊人久久久久久午夜久久久久| 亚洲欧美国产va在线影院| 合欧美一区二区三区| 欧美视频在线免费看| 久久成人18免费网站| 国产精品久久91| 亚洲摸下面视频| 欧美日韩亚洲视频| 黄色国产精品一区二区三区| 午夜伦理片一区| 国产精品丝袜白浆摸在线| 欧美一区二区三区四区在线观看地址| 国产欧美综合在线| 99国产精品久久久久老师| 国产综合色产在线精品| 国产精品丝袜久久久久久app| 欧美成人高清视频| 欧美日韩亚洲在线| 性做久久久久久久久| 亚洲日韩中文字幕在线播放| 国产精品天美传媒入口| 久久中文字幕一区二区三区| 午夜精品久久久久久久久| 欧美在线视频在线播放完整版免费观看| 欧美剧在线观看| 欧美日韩另类视频| 国产精品日日摸夜夜添夜夜av| 欧美极品aⅴ影院| 亚洲二区三区四区| 国语自产精品视频在线看一大j8| 久久国产欧美精品| 亚洲第一综合天堂另类专| 欧美激情一区二区三区四区| 国产在线日韩| 欧美日韩专区| 亚洲免费网站| 久久久夜夜夜| 欧美日韩国产亚洲一区| 狠狠色狠狠色综合系列| 国产日本欧美一区二区| 亚洲片国产一区一级在线观看| 亚洲午夜精品网| 亚洲欧美综合精品久久成人| 亚洲精品欧洲精品| 国产一区二区三区免费不卡| 欧美一区国产在线| 国产伦精品免费视频| 欧美一区二区高清在线观看| 亚洲欧美在线网| 日韩一级成人av| 韩国成人理伦片免费播放| 国产日韩欧美中文| 一本色道久久综合亚洲精品不卡| 亚洲亚洲精品三区日韩精品在线视频| 国产精品国产三级国产专播精品人| 亚洲国产免费| 狠狠色综合日日| 欧美大胆a视频| 国产免费观看久久| 中日韩午夜理伦电影免费| 免费短视频成人日韩| 亚洲欧洲日本mm| 亚洲精品男同| 国产午夜精品久久久久久久| 午夜精品在线视频| 亚洲系列中文字幕| 精品福利av| 欧美国产日韩二区| 国内外成人免费激情在线视频网站| 宅男66日本亚洲欧美视频| 午夜日韩在线观看| 精品999在线观看| 欧美国产日韩二区| 国产精品啊啊啊| 亚洲一二三四久久| 亚洲天堂av在线免费观看| 欧美成年人网站| 国内成人在线| 亚洲色图制服丝袜| 一区二区日本视频| 亚洲男人av电影| 国产精品久久久久9999吃药| 亚洲一区二区免费视频| 国产精品永久免费在线| 久久久国产午夜精品| 欧美日韩国产一区二区三区| 国产精品theporn88| 雨宫琴音一区二区在线| 欧美色大人视频| 国产一区二区三区久久久久久久久| 另类欧美日韩国产在线| 国产精品久久久久9999吃药| 久久久久五月天| 国产精品入口| 久久久噜噜噜久久人人看| 国产精品久久国产愉拍| 欧美日韩国产成人| 久久久久久久91| 国产一区二区三区在线观看视频| 性高湖久久久久久久久| 91久久精品美女| 欧美日韩1区2区| 日韩视频在线免费观看| 欧美日韩在线播| 亚洲一区二区av电影| 在线亚洲免费视频| 久久午夜羞羞影院免费观看| 亚洲国产精品99久久久久久久久| 亚洲欧美激情一区二区| 国产精品视频观看| 欧美在线播放视频| 国产精品毛片大码女人| 性久久久久久久| 欧美三级电影精品| 国产精品一区二区在线观看| 午夜精品福利一区二区蜜股av| 国产亚洲午夜| 亚洲第一区色| 亚洲视频在线观看网站| 欧美一区91| 亚洲国产美国国产综合一区二区| 亚洲天堂网站在线观看视频| 欧美国产日韩一区| 国产欧美日本一区二区三区| 中文国产成人精品久久一| 亚洲另类黄色| 国产一区二区精品久久91| 在线播放视频一区| 久久九九精品| 国产精品视频导航| 日韩亚洲欧美一区| 欧美婷婷六月丁香综合色| 国内精品久久久久影院薰衣草| 午夜久久久久久久久久一区二区| 亚洲香蕉成视频在线观看| 亚洲午夜精品一区二区| 亚洲男女自偷自拍图片另类| 在线观看日韩av电影| 欧美午夜精品一区二区三区| 欲香欲色天天天综合和网| 一区免费观看| 国产欧美一区二区三区在线看蜜臀| 两个人的视频www国产精品| 欧美理论视频| 亚洲激情图片小说视频| 亚洲精品免费一二三区| 国产精品久久久久7777婷婷| 一区二区在线免费观看| 国产精品乱码人人做人人爱| 亚洲二区在线视频| 欧美精品久久久久久久久老牛影院| 欧美在线三级| 日韩天天综合| 国产精品久久91| 久久影院午夜论| 精品不卡一区| 亚洲六月丁香色婷婷综合久久| 性欧美精品高清| 欧美在线免费看| 国产一区二区三区久久悠悠色av| 欧美成人精品三级在线观看| 亚洲国产第一页| 欧美视频二区36p| 一区国产精品| 亚洲国产精品尤物yw在线观看| 欧美一级专区免费大片| 在线看片一区| 国产精品久久久久久久久久久久久| 国产午夜亚洲精品羞羞网站| 亚洲欧美日韩一区二区三区在线| 美女视频黄免费的久久| 国产麻豆91精品| 欧美黄色免费| 久久精品日韩欧美| 亚洲一区二区精品在线观看| 免费久久精品视频| 欧美无乱码久久久免费午夜一区| 91久久午夜| 欧美在线视屏| 午夜亚洲性色视频| 午夜亚洲精品| 亚洲国产黄色| 狼人社综合社区| 国产一区二区三区免费在线观看| 欧美日韩国产不卡| 精品动漫3d一区二区三区免费| 久久福利一区| 中日韩男男gay无套| 亚洲毛片在线观看.| 欧美特黄一级大片| 亚洲性线免费观看视频成熟| 国产乱码精品一区二区三区忘忧草| 欧美伊人精品成人久久综合97| 欧美日韩一区成人| 国产精品久久久久久影视| 亚洲欧美视频在线观看视频| 麻豆成人91精品二区三区| 狠狠久久综合婷婷不卡| 国产欧美日韩中文字幕在线| 欧美在线视频一区二区三区| 日韩亚洲欧美成人一区| 久久国产加勒比精品无码| 亚洲激情视频网站| 亚洲三级网站| 久久精品91久久香蕉加勒比| 一区二区三区在线免费视频| 欧美午夜a级限制福利片| 久久另类ts人妖一区二区| 精品va天堂亚洲国产| 国产精品ⅴa在线观看h| 午夜精品久久久久久久久| 亚洲国产精品123| 狠狠色伊人亚洲综合网站色| 欧美人交a欧美精品| 欧美日韩免费高清| 激情婷婷欧美| 韩国av一区二区三区| 国产精品二区影院| 亚洲第一福利在线观看| 91久久精品一区二区三区| 午夜一区二区三区在线观看| 亚洲国产天堂网精品网站| 国产区欧美区日韩区| 国产精品久久久久国产a级| 欧美香蕉大胸在线视频观看| 欧美乱人伦中文字幕在线| 欧美午夜a级限制福利片| 久久久亚洲综合| 亚洲美女视频| 亚洲无限av看| 午夜精品免费| 欧美人交a欧美精品| 亚洲欧美清纯在线制服| 国产精一区二区三区| 欧美精选午夜久久久乱码6080| 亚洲自拍偷拍福利| 99www免费人成精品| 亚洲国产精品成人va在线观看| 亚洲一区在线播放| 久久久久国产精品一区| 国内精品国语自产拍在线观看| 亚洲精品国产视频| 在线精品福利| 欧美/亚洲一区| 亚洲制服av| 久久不射网站| 亚洲激情成人在线| 午夜免费日韩视频| 欧美成人精品在线观看| 亚洲午夜电影| 欧美久久精品午夜青青大伊人| 在线亚洲电影| 欧美另类亚洲| 欧美日韩亚洲一区二| 老司机午夜免费精品视频| 免费日韩精品中文字幕视频在线| 精品成人一区二区三区|