功能介紹
1、集成化圖形界面
包括網(wǎng)頁結(jié)構(gòu)窗口、工作臺、顯示窗口等子窗口。選取被抓取內(nèi)容時,三個子窗口聯(lián)動,并顯示HTML節(jié)點的重要屬性
2、抓取規(guī)則自動生成
指定抓取內(nèi)容,定義抓取結(jié)果存放結(jié)構(gòu)(整理箱),然后將網(wǎng)頁內(nèi)容分別映射給整理箱中的抓取內(nèi)容,MS謀數(shù)臺即可自動生成抓取規(guī)則
3、原始網(wǎng)頁內(nèi)容糾錯
網(wǎng)頁的發(fā)布者在寫網(wǎng)頁的時候可能存在語法和詞法錯誤,只要是火狐瀏覽器能打開的,都能定義抓取規(guī)則并進行抓取
4、防屏蔽抓取
有些目標(biāo)網(wǎng)站可能根據(jù)點擊行為特征屏蔽網(wǎng)絡(luò)爬蟲的過度訪問,集搜客GooSeeker采用技術(shù)手段盡量避免被屏蔽
5、清理運行狀態(tài)
使用ADSL等動態(tài)分配地址的部署方式,定期撥號更換IP地址,也可在火狐瀏覽器上清除cookie和緩存
軟件特色
1、直觀標(biāo)注采數(shù)據(jù)
不用程序思維,不要技術(shù)基礎(chǔ),點擊想要的內(nèi)容,軟件自動管理所選內(nèi)容,自動放進整理箱
2、可視化免編程
抓取軟件操作簡單,完全可視化操作,無需編程基礎(chǔ),熟悉電腦操作即可輕松掌握
3、模板資源套用
在抓取規(guī)則的詳情頁面,您可以仔細(xì)考察一個規(guī)則的抓取結(jié)果是否滿足您的需要,如果滿足,只需點擊“下載”按鈕,即可在會員中心一鍵啟動集搜客網(wǎng)絡(luò)爬蟲,抓取到你想要的數(shù)據(jù)
4、通用網(wǎng)絡(luò)爬蟲
采用功能強大的火狐瀏覽器內(nèi)核,所見即所得
5、會員互助抓取
這是爬蟲群并行抓取的一種特殊情形,利用這個功能,可以低成本快速匯集海量數(shù)據(jù)
6、不限深度不限廣度
以盡量低的成本獲得數(shù)據(jù),而且只獲取需要的網(wǎng)頁內(nèi)容
7、抓取指數(shù)圖表
集搜客網(wǎng)絡(luò)爬蟲具有強大的圖表數(shù)據(jù)抓取能力,而且提供一個開發(fā)者擴展接口,允許技術(shù)基礎(chǔ)高的用戶用Javascript自定義更高級的網(wǎng)絡(luò)爬蟲動作
8、本地化存儲保護隱私
把所有采集結(jié)果數(shù)據(jù)直接存儲在用戶個人電腦上,便于用戶對采集結(jié)果數(shù)據(jù)做各種處理
9、自動登錄驗證碼識別
具有自動登錄功能,只需要設(shè)置相關(guān)參數(shù),就可以控制集搜客網(wǎng)絡(luò)爬蟲定期自動登錄相應(yīng)的賬號
11、爬蟲群并行抓取
集搜客的并行抓取功能,一方面可以幫助個人解決效率低下的問題,另一方面也促進社區(qū)閑散資源的整合利用
12、一鍵“集搜”啟動多爬蟲抓取數(shù)據(jù)
可選擇分布式采集的方式,把采集任務(wù)分配到多臺電腦上執(zhí)行
13、手機網(wǎng)站數(shù)據(jù)抓取
使用GooSeeker采集手機網(wǎng)站數(shù)據(jù)和采用PC網(wǎng)站數(shù)據(jù)同樣簡單, 可視化定義抓取規(guī)則的過程完全一樣
軟件用法
1、安裝好gooseeker軟件,下圖為安裝好的界面:
2、點擊右上方的“MS謀數(shù)臺”,彈出如下界面:
3、在左上方的網(wǎng)址欄輸入想要爬取的網(wǎng)站,我這里輸入天氣網(wǎng)站,并在工作臺里面創(chuàng)建任務(wù),進行命名和查重,直到可以使用:
4、在工作臺上方標(biāo)題欄中選擇創(chuàng)建規(guī)則,選擇“新建”并命名,點擊確定:
5、點擊“抓取內(nèi)容”中自己的命名的一欄,選中點擊右鍵,選擇“添加”,選擇“包容”:
6、輸入你想抓取的內(nèi)容名稱并保存,我這里重復(fù)此步驟,創(chuàng)建抓取內(nèi)容“日期”、“最高氣溫”、“最低氣溫”、“天氣”、“風(fēng)向風(fēng)力”、“空氣質(zhì)量指數(shù)”,并將“日期”勾選為關(guān)鍵內(nèi)容:
7、在“瀏覽器”窗口中點擊你想要獲取的內(nèi)容,比如現(xiàn)在要獲取“日期”,就在“日期”那個區(qū)域進行鼠標(biāo)點擊,這時候MS謀數(shù)臺會自動定位“日期”,即在HTML中結(jié)點的DIV結(jié)點位置。展開結(jié)點,找到text結(jié)點,右擊鼠標(biāo),選擇內(nèi)容映射,然后選擇你想要映射至的抓取內(nèi)容:
8、重復(fù)進行第七步,知道把想要抓取的內(nèi)容給全部映射:
9、創(chuàng)建爬蟲路線,點擊工作臺標(biāo)題欄中的“爬蟲路線”,點擊“新建”:
10、創(chuàng)建翻頁定位編號,在瀏覽器中點擊上一月,網(wǎng)頁會自動定位該文本的結(jié)點,右擊結(jié)點選擇“翻頁映射”,“作為翻頁區(qū)”,“線索一”:
11、創(chuàng)建記號定位編號,在游覽器中點擊上一月,在網(wǎng)頁標(biāo)簽里會自動該文本定位的結(jié)點,打開該結(jié)點,可以看到text屬性,右擊text(此處只能右擊text,不能右擊結(jié)點),選擇 “翻頁映射”,“ 作為翻頁記號”:
12、創(chuàng)建樣例復(fù)制映射,點擊工作臺標(biāo)題欄里面的新建規(guī)則,勾選右方的啟用,啟動樣例復(fù)制管理功能:
13、分別找到該頁面想要爬取的第一條數(shù)據(jù)的日期欄和第二條數(shù)據(jù)對應(yīng)的日期欄的節(jié)點,右擊第一條數(shù)據(jù)的日期欄對應(yīng)的結(jié)點,選擇“樣例復(fù)制映射”,“第一個”,右擊第二條數(shù)據(jù)的日期欄對應(yīng)的結(jié)點,選擇“樣例復(fù)制映射”,“第二個”:
14、點擊工作臺左方的測試,對當(dāng)前的規(guī)則進行測試:
15、當(dāng)測試爬取內(nèi)容為想要的爬取內(nèi)容時就可以保存當(dāng)前規(guī)則了,點擊“MS謀數(shù)臺”右上方的“存規(guī)則”即可保存規(guī)則,然后可以使用我們創(chuàng)建的規(guī)則進行數(shù)據(jù)爬取了,想要看自己是否保存規(guī)則,就在工作臺標(biāo)題欄里面的“搜規(guī)則”查看:
16、打開“DS打數(shù)機”,“DS打數(shù)機”在Gooseeker瀏覽器中的右上方,打開“DS打數(shù)機”,點擊“文件”,“存儲路徑”,“ 自定義數(shù)據(jù)的存儲路徑”:
17、點擊“單搜”,設(shè)置抓取網(wǎng)頁數(shù)量,即可開始抓取:
18、然后打開存儲地址,然后可以看到爬取的數(shù)據(jù)以XML文件保存:
19、用EXCEL打開其中一個文件,可以看到爬取的數(shù)據(jù)集,數(shù)據(jù)爬取完成:
常見問題
1、網(wǎng)絡(luò)爬蟲狀態(tài)錯誤,無法從FAILED狀態(tài)啟動爬蟲?
這個報錯是說服務(wù)器連接失敗,失敗的時候顯示為紅色狀態(tài),正常是綠色
2、保存信息結(jié)構(gòu)描述文件失?。簄ot writable?
①主題名重復(fù)了,換個主題名就行
②“爬蟲路線”工作臺上,如果有下級線索,也要注意不能與別人重名。都有“查重”按鈕,可以檢查一下
3、為什么謀數(shù)臺又打不開了,打數(shù)機能打開?
①火狐自動升級后跟爬蟲不配套,就不能正常使用了,所以,安裝火狐的時候要去工具菜單->選項->高級->更新里設(shè)置不檢查更新
②下載了更高版本或中國版火狐,里面安裝很多插件,可能影響到gooseeker爬蟲的正常使用
③電腦安裝了360等殺毒軟件,會悄悄破壞其他程序,只需禁止其安全防護功能
標(biāo)簽: 網(wǎng)頁抓取 信息收集
下載地址
裝機必備軟件
網(wǎng)友評論