一、 主要功能
易海聚新聞采集系統(tǒng)的主要功能為:根據(jù)用戶自定義的任務配置,批量而精確地抽取目標網(wǎng)絡媒體欄目中的新聞或文章,轉(zhuǎn)化為為結(jié)構(gòu)化的記錄(標題,作者,內(nèi)容,采集時間,來源,分類,相關(guān)圖片等),保存在本地數(shù)據(jù)庫中,用于內(nèi)部使用或外網(wǎng)發(fā)布,快速實現(xiàn)外部信息的獲取。
二、 系統(tǒng)特點
對目標網(wǎng)站進行信息自動抓取,支持HTML頁面內(nèi)各種數(shù)據(jù)的采集,如文本信息,URL,數(shù)字,日期,圖片等。
用戶對每類信息自定義來源與分類
可以下載圖片與各類文件,如PDF,文件等
支持用戶名與密碼自動登錄
支持命令行格式,可以Windows任務計劃器配合,定期抽取目標網(wǎng)站
支持記錄唯一索引,避免相同信息重復入庫
支持智能替換功能,可以將內(nèi)容中嵌入的所有的無關(guān)部分如廣告去除
支持自動翻頁
數(shù)據(jù)直接進入數(shù)據(jù)庫而不是文件中,因此與利用這些數(shù)據(jù)的網(wǎng)站程序或者桌面程序之間沒有任何耦合
支持數(shù)據(jù)庫表結(jié)構(gòu)完全自定義,充分利用現(xiàn)有系統(tǒng)
支持多個欄目的信息采集可用同一配置一對多處理
保證信息的完整性與準確性,絕不會出現(xiàn)亂碼
支持各種主流數(shù)據(jù)庫,圖數(shù)據(jù)庫,大數(shù)據(jù)數(shù)據(jù)庫等
三、 運行環(huán)境
操作系統(tǒng):Windows
內(nèi)存: *低64M內(nèi)存,建議256M或以上
硬盤: *少100M空余硬盤空間 |
|