1. 思百科首页
  2. 懂百科

数据抓取(大数据抓取客户软件)

数据捕获(大数据捕获客户端软件)

大家好。今天给大家分享一下如何批量抓取网页中的数据来抓取汽车的投诉。这也是一个粉丝问的问题。他准备买车,想看看各个厂家的投诉。事不宜迟,直接开始吧。如果你进来是想了解各个厂家的投诉量和被投诉车型的排名,那就拉到最后吧。

首先,分析网页

下面以车质网的汽车投诉为例,给大家演示一下如何批量抓取数据。下图分别显示了第一页到第三页的URL。我们可能会看到这三个页面的网址,只有红色的123,也就是对应的页码不一样,其余都是一样的。

第二,捕捉数据

然后我们打开excel,再点击数据函数组,找到网址。我们点击高级选项,然后把代表页码的数字单独放在一个输入框中。可以通过点击添加组件来添加输入框,设置完成后直接点击确定即可。

这样,我们就进入了导航器的界面。在这个网页中,power query捕捉到了两个内容。我们可以点击看看哪个是我们需要的数据。这里,table0是我们想要捕获的数据。只需选择table0并单击转换数据。这样我们就进入了powerquery的编辑世界里的红豆博客页面。

然后,我们单击高级编辑器,在let前面键入(x as number)作为table = >然后将URL中的“1”更改为(number。ToText(x))并单击Finish。

这样,我们就把前面的操作封装成了一个函数。我们只需要输入对应的编号,然后点击调用就可以跳转到对应页码的数据。

然后,我们单击左侧的白色空区域,单击鼠标右键选择一个新的查询,在其中找到其他源,然后选择空查询,然后我们输入={1..100}在编辑栏中点击回车,这样我们就可以得到一个1到100的序列,然后点击表格,将查询转换成表格,直接点击确定即可。

然后选择添加列,再找到自定义函数,在函数查询中选择table0,直接点击确定。这样,power query就会开始抓取数据。抓取这里的100页web数据的过程可能会比较长,我在这里大概需要3分钟。抓取后,每个序列的后面都会获得一个表格。我们单击左右箭头来展开数据。删除原始列名前面的复选标记,然后单击OK删除我们添加的序列。既然这样,那就完了。我们只需要在开始时选择关闭并上传到,就可以将数据加载到Excel中。因为数据比较多,这个过程也会花费很多时间。在这里,它花费我大约1分钟。

三。统计分析

当数据加载到Excel中后,我们可以通过透视表快速分析数据。下图基于车质网投诉记录中抓取的3000条数据。然后通过透视表,可以得到投诉品牌的排名,以及头红豆博客的车系。这里,近一个月3000条数据的投诉量。

以上是我们批量抓取100页网页数据的方法,以及各个厂商的投诉排名。整个过程大概需要7分钟,大部分时间都花在了数据的抓取和加载上。

最近怎么样?你学会了吗?赶紧试试吧。

本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 engola@qq.com 举报,一经查实,本站将立刻删除。文章链接:https://www.4baike.com/n/12097.html

发表评论

您的电子邮箱地址不会被公开。 必填项已用*标注