原始标题:网页图像和链接数据的收集方法

举一个收集有昵称网的图片的例子

1 .网站结构

1 .网站的屏幕截图说明

收集包含昵称网页的所有图片和链接目标

【有昵称网页】

2 .收集结果的屏幕截图

【搜索列表链接】

【数据检索结果】

1 .配置模板

1 .新建任务

单击“下一步”后,必须收集所有搜索结果,因此此处必须选中“链接列表”和“普通页”

【新收集任务】

2 .过滤链接列表

①用锚点过滤链接,用关键词过滤检索到的链接。

【位置控制过滤器列表链接】

②取得预览,确认过滤是否成功。

收集预览中出现的链接都是网页关键词检索列表的链接,筛选成功。

【收集预览】

3 .过滤翻页链接

①通过定位过滤链接,过滤翻页链接。

【定位过滤器页面翻页链接】

②取得预览,确认过滤是否成功

预览中出现的所有链接都是翻页的链接,过滤成功。

【收集预览】

4 .新数据提取

0

5 .添加示例地址

6 .创建/选择表单

表单建立后,您也可以重复使用。 如果已创建表单,请选择相应的数据表单。 否则,请按一下「建立表单」。

7 .配置表单

如果需要,请设置表单域。 在此设定主键、网址、图像三个字段。 => (字段各属性的说明)

方法1 :快速编制表格。 (按一下并按一下「建立表单」,即可检视弹匣。 中所述情节,对概念设计中的量体体积进行分析

【构成表单】

方式二:自由制作钟表。 (在数据制作表界面中。 中所述情节,对概念设计中的量体体积进行分析

【字段取值】

8 .相关表格

9 .字段取值

①f_id :在主键字段中,自动取值。 => (可以自动检索值的字段是什么? 中所述情节,对概念设计中的量体体积进行分析

②url :在当前页面的网站上自动取值。

③name1:在字段的位置取值,点击ctrl+标题确认选择。

【name1】

④fujian :在区域的位置取值,点击ctrl+图像确认选择。

10 .相关数据表

在创建相关数据表之前,请选择相应的表单,如图所示。

【关联数据表的制作】

【定义表名】

0

【检查数据表】

11 .模板预览

预览可以帮助您确定是否可以正确收集需要配置的数据。

方法1 :您可以按一下「收集预览」按钮,从入口页面阶层式预览每个样版的资料。

单击其中一个链接以查看是否获得与网页相对应的规则数据。

方式2 :右键单击并选择【模板预览】,可分别预览某个模板的数据。

【模板预览】

【预览结果】

3 .数据收集

1 .运行设定

执行设定可让您设定收集速度、收集策略、工作负载等。

【运行设定】

2 .选择收集任务

通过在任务列表中检查要收集的任务,可以检查多个任务并同时收集。

【采集任务的选择】

3 .开始采集

单击“开始采集”,系统开始采集。 如果剩馀的任务数为0,系统将自动停止收集。 用户还可以自己暂停任务或停止任务(停止任务将释放任务,重新启动时重新加载任务)。

【开始采集】

4 .数据阅览

收集一段时间后,单击“数据阅览”,从数据列表中选择相应的数据表,可以阅览收集的数据,单击“更新”按钮,可以同步显示数据。

【数据阅览】

5 .导出数据

单击“导出”( export )按钮,选择并保存导出文件格式。

【数据的导出】

【数据的导出】

今天先在这里分享,你还记得吗? 回到搜狐,让我们更详细地看看

责任编辑: