藍天采集器可以幫助用戶快速爬取網(wǎng)站數(shù)據(jù),可將數(shù)據(jù)全部存儲在云上,無需在本地進行管理,節(jié)省了大量的硬盤空間,支持多級多頁等采集方式與內(nèi)容發(fā)布功能,需要的用戶快來下載吧。
軟件介紹
藍天采集器是一款免費的數(shù)據(jù)采集發(fā)布爬蟲軟件,采用php+mysql開發(fā),可部署在云服務(wù)器,幾乎能采集所有類型的網(wǎng)頁,無縫對接各類CMS建站程序,免登錄實時發(fā)布數(shù)據(jù),全自動無需人工干預(yù),是大數(shù)據(jù)、云時代網(wǎng)站數(shù)據(jù)自動化采集的最佳云端爬蟲軟件!
軟件特色
關(guān)于軟件
藍天采集器(SkyCaiji),致力于網(wǎng)站數(shù)據(jù)自動化采集發(fā)布,系統(tǒng)采用PHP+Mysql開發(fā),可部署在云端服務(wù)器,使數(shù)據(jù)采集便捷化、智能化、云端化,讓您隨時隨地移動辦公!
數(shù)據(jù)采集
支持多級、多頁、分頁采集,自定義采集規(guī)則(支持正則、XPATH、JSON等)精準匹配任意信息流,幾乎能采集所有類型的網(wǎng)頁,絕大多數(shù)文章類型頁面內(nèi)容可實現(xiàn)智能識別
內(nèi)容發(fā)布
無縫對接各類CMS建站程序,實現(xiàn)免登陸導入數(shù)據(jù),支持自定義數(shù)據(jù)發(fā)布插件,也可以直接導入數(shù)據(jù)庫、存儲為Excel文件、生成API接口等
自動化及云平臺
軟件實現(xiàn)定時定量全自動采集發(fā)布,無需人工干預(yù)!內(nèi)置云平臺,用戶可分享及下載采集規(guī)則,發(fā)布供求信息以及社區(qū)求助、交流等
使用方法
升級軟件
可直接在后臺首頁中檢測更新后點擊升級,或者將壓縮包上傳至服務(wù)器解壓覆蓋即可!
安裝軟件
將下載的軟件上傳至您的服務(wù)器,如果根目錄有站點建議放在子目錄里,解壓后打開瀏覽器輸入您的服務(wù)器域名或ip地址(存放在子目錄則加上子目錄的名稱),進入安裝界面
點擊“接受”,進入環(huán)境檢測頁面
必須確保所有參數(shù)都正確,否則使用中會出現(xiàn)錯誤,點擊“下一步”進入數(shù)據(jù)安裝界面
填寫好數(shù)據(jù)庫及創(chuàng)始人配置,點擊“下一步”
最后安裝完成,現(xiàn)在可以使用藍天采集器了!
匹配規(guī)則
“規(guī)則”支持:(*)(通配符)、正則表達式,使用[內(nèi)容](通用匹配)或捕獲組(正則捕獲組)將匹配的數(shù)據(jù)保存為標簽,在“拼接內(nèi)容”中引用[內(nèi)容N]標簽組成結(jié)果
[內(nèi)容]和捕獲組的區(qū)別:[內(nèi)容]會自動轉(zhuǎn)換成固定格式捕獲組:(?<content>.*?)
而捕獲組:(?<content>[\s\S]*?),可以編寫任意正則表達式
[內(nèi)容]適用于精準度不高的通用匹配,捕獲組適用于精準匹配
默認為單個匹配,多個匹配可勾選“允許匹配多個元素”
標簽: 爬蟲工具 數(shù)據(jù)采集

數(shù)據(jù)采集在現(xiàn)在的各行各業(yè)都是非常重要的,用戶們可以根據(jù)相關(guān)的數(shù)據(jù)來進行分析出各種不同的需求,這樣就能解決各種不同的問題,提高工作效率!
下載地址
裝機必備軟件
網(wǎng)友評論