火車(chē)采集器(LocoySpider)是一個(gè)功能強(qiáng)大的數(shù)據(jù)采集軟件,利用該軟件就可以輕易在網(wǎng)頁(yè)上抓取文字、圖片、文件等等需要的資源。軟件還支持遠(yuǎn)程下載圖片文件、探測(cè)文件真實(shí)地址、防盜鏈的采集、采集數(shù)據(jù)直接入庫(kù)和模仿人手工發(fā)布等等。
軟件特色
1、通用性強(qiáng)
無(wú)論新聞、論壇、視頻、黃頁(yè)、圖片、下載類(lèi)網(wǎng)站,只要通過(guò)瀏覽器能看到的結(jié)構(gòu)化的內(nèi)容,通過(guò)指定匹配規(guī)則,都能采集到您所需要的內(nèi)容。
2、穩(wěn)定、高效
五年磨一劍,軟件不斷更新進(jìn)步,采集速度快,性能穩(wěn)定,占用資源少。
3、擴(kuò)展性強(qiáng)、適用范圍廣
自定義web發(fā)布,自定義主流的數(shù)據(jù)庫(kù)的保存和發(fā)布,自定義本地php及.net外部編程接口處理數(shù)據(jù),讓數(shù)據(jù)都能為你所用。
基本功能
1、規(guī)則自定義 - 通過(guò)采集規(guī)則的定義,可以搜索所有網(wǎng)站采集幾乎任何類(lèi)型的信息。
2、多任務(wù),多線(xiàn)程 - 可以同時(shí)進(jìn)行多個(gè)信息獲取任務(wù),每個(gè)任務(wù)可以使用多個(gè)線(xiàn)程。
3、所見(jiàn)即所得 - 任務(wù)采集過(guò)程所見(jiàn)即所得,過(guò)程中遍歷的鏈接信息、采集信息、錯(cuò)誤信息等都會(huì)及時(shí)的反映在軟件界面中。
4、數(shù)據(jù)保存 - 數(shù)據(jù)邊采集邊自動(dòng)保存到關(guān)系數(shù)據(jù)庫(kù)中,并且數(shù)據(jù)結(jié)構(gòu)能夠自動(dòng)適應(yīng),軟件可以根據(jù)采集規(guī)則自動(dòng)創(chuàng)建數(shù)據(jù)庫(kù),以及其中的表和字段,也可以通過(guò)導(dǎo)庫(kù)方式靈活的將數(shù)據(jù)保存到客戶(hù)已有的數(shù)據(jù)庫(kù)結(jié)構(gòu)中。
5、斷點(diǎn)續(xù)采 - 信息收集任務(wù)可以在停止后從斷點(diǎn)開(kāi)始繼續(xù)采集,從此你用不再擔(dān)心你的采集任務(wù)意外中斷了。
6、網(wǎng)站登錄 - 支持網(wǎng)站Cookie,支持網(wǎng)站可視化登錄,即使登錄時(shí)需要驗(yàn)證碼的網(wǎng)站也能采集。
7、計(jì)劃任務(wù) - 通過(guò)這個(gè)功能可以讓你的采集任務(wù)定時(shí)、定量或者一直循環(huán)執(zhí)行。
8、采集范圍限制 - 可以根據(jù)采集的深度和網(wǎng)址的標(biāo)識(shí)來(lái)限制采集的范圍。
9、文件下載 - 可以將采集到的二進(jìn)制文件(諸如:圖片、音樂(lè)、軟件、文檔等等)下載到本地磁盤(pán)或者采集結(jié)果數(shù)據(jù)庫(kù)中。
10、結(jié)果替換 - 可以將采集的結(jié)果根據(jù)規(guī)則替換成你定義的內(nèi)容。
更新日志
2021-03-15
火車(chē)采集器V9.30版
1、優(yōu)化標(biāo)簽數(shù)據(jù)處理中字符替換。
2、對(duì)文件探測(cè)無(wú)效導(dǎo)致文件下載失敗問(wèn)題優(yōu)化。
3、處理用戶(hù)名包含特殊符號(hào)不能登錄問(wèn)題。
4、修復(fù)數(shù)據(jù)管理批量操作數(shù)據(jù)有異常彈窗提示。
5、修復(fù)二級(jí)代理卡死問(wèn)題。
6、完善自動(dòng)獲取cookie失敗問(wèn)題。
7、發(fā)布到word,自動(dòng)轉(zhuǎn)義“<”、“>”為“《”、“》”。
8、修復(fù):勾選發(fā)布選項(xiàng),采集最大數(shù)無(wú)效。
9、修復(fù)oracle鏈接問(wèn)題。
10、支持oss存儲(chǔ)。
11、修復(fù):下載地址后面有斜杠,下載文件時(shí)無(wú)后綴名。