系统之家 - Windows操作系统&装机软件下载网站!

当前位置: 首页  >  教程资讯  >  软件教程 八爪鱼采集器自定义怎么用 自定模块教程

八爪鱼采集器自定义怎么用 自定模块教程

时间:2023-06-02 16:16:41 来源: 人气:

有了上次体验的使用模板爬取数据的经验,相信大家应该能较为熟练的使用八爪鱼采集器了,或许有小伙伴好奇,难道我们只能通过软件预设的模板爬取数据吗,当然不是,八爪鱼采集器还有一个自定义采集功能,以供用户采集自己想要的数据,比起预设的模块,自定义更加灵活,虽然比起预设模板更为复杂,但是爬取到的数据也更贴合你的心意,本文小编便为大家带来八爪鱼采集器的自定义模块教程。

 

步骤一

八爪鱼采集器自定义怎么用 自定模块教程(图1)

首先还是照旧,启动并登入你的八爪鱼采集器,进入到主界面,点击【新建】下的【新建任务组】创建一个新的组。

八爪鱼采集器自定义怎么用 自定模块教程(图2)

点击确定创建新组

步骤二

八爪鱼采集器自定义怎么用 自定模块教程(图3)

创建好组后,点击【新建】下的自定义任务,就会到这样一个界面。

八爪鱼采集器自定义怎么用 自定模块教程(图4)

我们可以去寻找想要爬取的网页的链接,这里小编到京东搜索了手机,等搜索结果出来,就可以复制链接。

八爪鱼采集器自定义怎么用 自定模块教程(图5)

将我们复制的链接粘贴到网址一栏中,并将任务组改成先前创建的组,然后点击【保存设置】。

步骤三

八爪鱼采集器自定义怎么用 自定模块教程(图6)

保存设置后,便会跳转到爬取界面,软件会自动开始识别网页中要爬取的部分,根据个人机器网速不同,相应的等待时间也不同。

八爪鱼采集器自定义怎么用 自定模块教程(图7)

识别完成后,我们可以看到有许多数据,其中有许多无用的数据,需要我们剔除。

八爪鱼采集器自定义怎么用 自定模块教程(图8)

将光标移动到表格字段上,会出现两个图标,笔图标为更改字段名,垃圾桶为删除此字段。

八爪鱼采集器自定义怎么用 自定模块教程(图9)

我们可以自由的删除,更改字段名,这里小编仅保留上图内字段。

步骤四

八爪鱼采集器自定义怎么用 自定模块教程(图10)

设置好字段后,我们把目光转到上图内的小框中,首个不可选,我们直接忽视。

采集前滚动页面加载更多数据:因为现在很多网站都采用的是动态页面,有些内容不会在加载的时候展示,只有当我们下拉时才会逐渐展示出来,而这个功能就是为了防止这个情况出现。

翻页并采集多页数据:设置爬取多页,不勾选仅爬取当前页。

点击列表中XXX并采集下一级页面:这个功能可以让我们爬取子页面内的内容。

这里我们不深入爬取,只勾选前两项,然后点击【生成采集设置】。

八爪鱼采集器自定义怎么用 自定模块教程(图11)

点击生成后,会让你开始保存或查看,这里点击保存并开始采集。

步骤五

八爪鱼采集器自定义怎么用 自定模块教程(图12)

到了这个界面后,我们可以看到一个细致的流程,内循环列表中就是本页内爬取的内容。

八爪鱼采集器自定义怎么用 自定模块教程(图13)

我们点击外循环的设置按钮。

八爪鱼采集器自定义怎么用 自定模块教程(图14)

展开退出循环设置,勾选循环执行次数,这里我们仅爬取3页。

八爪鱼采集器自定义怎么用 自定模块教程(图15)

开始采集

八爪鱼采集器自定义怎么用 自定模块教程(图16)

采集完成,点击导出。

八爪鱼采集器自定义怎么用 自定模块教程(图17)

另外,如果你爬取的页面内有重复数据,软件也会直接提示,根据自己情况选择保留或去除。

八爪鱼采集器自定义怎么用 自定模块教程(图18)

导出方式

八爪鱼采集器自定义怎么用 自定模块教程(图19)

导出文件的保存位置

八爪鱼采集器自定义怎么用 自定模块教程(图20)

保存完成

八爪鱼采集器自定义怎么用 自定模块教程(图21)

查看数据

以上就是小编为大家带来的八爪鱼采集器自定义模块教程,熟练使用后相信小伙伴们能采集的数据就更多了,使用八爪鱼采集器采集数据后,可以根据采集的数据进行分析,完成各种任务,希望本文能为大家带来帮助。

作者

教程资讯

软件教程排行

系统教程

系统主题