豆瓣租房爬蟲是房源信息的采集軟件,專用于最近非常年輕人查詢租房信息的豆瓣小組,上面有很多房屋優(yōu)質(zhì)且價格優(yōu)惠的房源,而這款工具可以讓用戶在設(shè)置關(guān)鍵字和價格后自動爬取收集房源信息。
軟件介紹
豆瓣租房小組爬蟲是一款能夠幫助中介或者找房源的用戶快速找到適合自己的房源的軟件,很多在豆瓣租房小組找房的用戶面對琳瑯滿目的房子不知該如何甄別,利用軟件能夠快速篩選出適合自己價位的房源。
軟件特色
此爬蟲用python開發(fā),基于gevent、pymongo、requests、lxml、Flask。
流程也相對較簡單:
配置需要爬取的URL;
配置需要解析的信息元素,用XPATH完成;
配置代理;
配置監(jiān)控周期、最大頁數(shù)、并發(fā)數(shù)等;
運行爬蟲,等待抓取,會自動根據(jù)配置定時爬??;
啟動web服務(wù),在前臺搜索、排序等;
使用說明
一、下載打開軟件,首先設(shè)置要找的房源的地址。
二、接下來設(shè)置理想價位和排除關(guān)鍵詞。
三、點擊爬取即可獲取房源信息,等待軟件獲取相關(guān)關(guān)鍵詞房源。
四、利用typora軟件打開爬取下來的MD文件即可看到房源信息。
常見問題
如何設(shè)置豆瓣群組鏈接?
首先搜索某個地區(qū)租房,例如:北京租房
點進(jìn)去要爬取的某個小組,例如第一個:北京租房
將頁面拉到最下面有個> 更多小組討論超鏈接,點進(jìn)去
復(fù)制地址欄中地址(從/group開始復(fù)制到結(jié)尾),粘貼到軟件設(shè)置豆瓣群組鏈接
有時候粘貼進(jìn)軟件會崩潰,不知道什么原因,建議把軟件中原來的鏈接刪除再粘貼進(jìn)去。
將start=后邊的數(shù)字50改成%d
完成
如何設(shè)置排除關(guān)鍵字?
排除關(guān)鍵字是標(biāo)題和內(nèi)容只要出現(xiàn)關(guān)鍵字就會排除掉該條租房信息。
例如默認(rèn)是限女這個關(guān)鍵字,只要租房信息中包含限女生入住,只限女生等出現(xiàn)限女關(guān)鍵字的一律不爬。
多個關(guān)鍵字用|分隔,注意是英文的。
例如:限女|短租|整租,這三個關(guān)鍵字設(shè)置后,只要標(biāo)題和內(nèi)容出現(xiàn)這三個關(guān)鍵字軟件就不會爬取。
關(guān)于識別標(biāo)題中的價格
使用正則\b\d{4}\b識別標(biāo)題中的價格信息,無法爬取少于1000元的信息。
關(guān)于爬取結(jié)果排序
先根據(jù)價格從小到大排序,價格相同根據(jù)發(fā)帖時間排序。
下載地址
裝機必備軟件
網(wǎng)友評論