网页文本提取器
网页文本提取器由以下五大部分组成:
1.主题数据库
用于存储与设置《网页文本提取器》自动采集的主题。
2.主题记录数据库
用于存储主题对应的相关100个网页中的核心文本信息
3.100个(根据用户需要可以设置)URL地址列表
在主题指导下进行搜索时,自动选取百度或Google中的前100个搜索结果对应的网址。
4.网页核心文本的显示区域
在手动模式下,用户点击了100个URL地址中的任一地址后,系统将自动提取该网页中的核心文本,并显示。
5.主题下主题记录的修改与删除
选择了某一主题后,该主题下的记录将在主题记录列表中显示,同时该记录对应的文本在文本区域中显示。此时可修改与删除列表记录。
在手动模式下,用户也可以在点击了100个URL地址中的地址后,将新获取的网页文本添加到记录列表中。
在自动模式下,系统将100个URL地址对应的网页文本自动提取,并自动存储到当前主题下的数据库中。
软件界面
软件操作说明
手动模块操作说明
1.选择搜索引擎
2.点击搜索主题(可事先在数据中存储,便于自动搜索,采集)
3.点击URL列表中的地址
4.获得网页中的核心文本
5.存储
自动模块操作说明
实现了手动操作模块的余部自动化

