• 微信
您当前的位置:首页 > 使用教程

[规则视频教程]网页信息批量采集:导出蝉妈妈商品列表到excel的规则写法

作者:4管理员 时间:2022-12-04 阅读数:439人阅读

视频教程地址:https://www.bilibili.com/video/BV1oD4y1e7ws/

今天演示一下蝉妈妈的选品库的商品列表怎么导出

我们打开蝉妈妈这个网页

切换到选品库

我们要找到这些商品从哪个页面加载的

首先右键选择源代码,第一个商品是全国联通,我们是在代码中搜索,发现没有找到

说明这些信息不是在网页本身加载的,而是在其他的页面加载上来的

我们要找到真实加载这些信息的网页

首先右键选择检查或者是f 12切换到network,或者有一些浏览器是中文版的工具条切换到网络,这个漏斗先把这个漏斗打开或者关闭

我们打开把它切换到xhr,一般呢通过其他页面加载的都是xhr

我们选择一个品类,让数据重新加载一下,随便用食品饮料点一下,可以看到列表已经重新重新加载到新的分类了

然后这个数据是从哪个,我们要找到这个数据从哪个列表里面抓到的

我们看到有两条两条信息

首先检查第一个发现这个数据只有这么一些,再看一下

第二个切换到这个,然后展开

可以看到这些list里面有十个信息

展开以后看到它包含商品的一些列表的一些的数据

也就是说这个这个页面

这个页面是真实数据请求的网址页面

我们把网址复制下来

这是它的网址

再把这个拉拉到最下面啊

可以看到这个网址上包含哪些哪些参数

找一些这个食品饮料是分类类别的意思

这个拍解我们可以理解成应该是页面的分页

分页size就是一个页面放有多少多少条信息

我们现在可以猜测是这个意思

然后打开我们的采集工具

首先我们输入刚前面复制的这个加载这些数据的一个真实网址

从这里http复制到最后

复制下来

然后粘贴

我们测试一下看看

发现没有找到没有找到信息

那么我们再找到原因

第二步就是没有找到

说明它识别成我们是软件抓取的

而不是正正常获取

那么我们把它的协议头给它复制下来

把这些全部复制下来

大家可以看看在哪里

全部复制下来再粘贴

全选粘贴

再测试一下

可以看到右面源码显示只有一个问号

这个问号说明网页压缩了

所以说我们因为软件没有封装解压模块

所以说我们把它取消压缩

在这里找到gzip这个压缩

这个我们要删掉这一行

我们也可以直接加个1,也就是说把这个参数给它变一下,我们再测试一下哦

看到了数据已经加载出来了

但是有一个问题就是很多中文变成乱码了

那么我们把这个编码切换一下状态

再测试一下

现在可以了

我们可以看到数据已经获取成功了

第一个是pp嘴粮油

看一下网页上面的信息对吧

这个这个现在跟网页上一致了

那么我们数据抓取出来了

看一下怎么能把每一条的数据匹匹配下来

在切换到网页上

找到这里刚刚的这个列表的

我们可以看到每一个列表的是从这个开始

一共有十个列表

每个列表每一个商品的商品是从这里开始

我们先把软件识别成的源码复制到记事本里面

控制一个商品的显示的代码

从从这里开始

因为它有十个循环体

每一个循环体都是从这里开始

从这里开始

我们搜索一下

那我们找到了啊

第一个在

第一个在这里

那么到到第二个

这里是不是就是一个完整的一个数据

也就是说这里在这里

我们从

我们复制这么多

复制一个

然后新建一个给它拉出

拿出来

我们可以分析一下他这些

参数是什么意义

这个我们不需要

我们需要哪里

今天先提哪些数据呢

商品标题标题跟多少人带货

171我们搜索一下171在哪里

171

这里这里是171

说明说明这里我们把要取得171改成英特尔参数表示数数值变量

在标题

商品的标题

因为它是文本

所以说我们直接把文本改成一个v2 中括号括起来

商品店名要不要呢

店名先不要了

我们随便简单的演示一下

价格价格和佣金也匹配一下吧

价格是9.9

我们找一下9.9

查不到

那么可能是990

他可能是以分级的计单位的

那么我们把在这里改成int

佣金比例是48%

我们搜索48

在这里可能就是控制48%显示的

直接它的数值我们改成[int]

这里是啥呀

是佣金吧

475我们也我们先保留一下吧

先不管它其他的

这是我们匹配的要匹配的

那么我们把把用不到的给它清除掉

首先我们从这这哦网址

我们打开以后要有网址

我们看一下网址

它的它的网址

商品的网址是应该是这一个

我们也在我们的源码里面搜索一下

可以看到这里是显示的是网址

我们也把它给它

因为它是文本

所以说我们直接给它全替换成网址格式的

文本格式的变量好

我们就暂时取这么多信息

首先我们从第一个开始

花括号我们就不要了

因为要写转义符

我们先提取这么多

写在规则里面

我们的规则是有两种

第一个是直接截取一段文本

我们第二个是匹配信息列表

我们要现在用的是第二条

直接把这个粘贴进来

我们测试一下匹配

可以看到已经匹配出来了十条

说明我们的规则到现在是正确的

然后我们一直拓展

往后拓展到这里

这里又有一个

所以说实际上我们这里是不需要的

但是这个地方是变量

所以说我们一样需要把它改成

改成加个零吧

零加个零表示匹配它

但是我们不需要它再试一下

十条现在也出来了

说明到目前为止

规则仍然仍然是正确的

再往下拉

视频饮料我们要不要扔呢

这些是变量的

所以说我们可以把这个也给它替换一下食品饮料

那现在先保留着吧

再去匹配

为什么现在一点一点测试呢

如果直接整条去规则前进来

错误了

你找不到原因

还要重新慢慢缩减范围

去定位原因的问题

食品饮料也匹配出来了

那么我们再往后看

这个是不需要的

4.6是什么

4.6

这里好像我们不用它

需不需要它

这个酒是什么酒

我们也不要了吧

这个是图片

图片如果不要

我们也直接给它忽略掉

30天带货627

这个是不是要要啊

6.7627以下六六啊

这个我们这个不要了

零这个30天带货

66732

这个可能会需要

所以说我们也给他保留吧

那么我们再去测试一下往后这个七天的总总量

这个也要我们先去再测试一下

十条仍然可以显示出来

说明匹配到现在规则是正确的

这个我们暂时不要了吧

因为演示演示不需要搞这么详细

如果大家有需要的话

可以慢慢自己去改动

再试一下

十条现在能让他一起去

这个3000也不要

我们先全部不要了

这里都不需要不需要这个店名

我们不需要

所以说我们也不要了

这个分值也不要了吧

直接到这里

因为它全部是一个变量

所以说我们直接不要加个零

然后标题要刚刚说了

花括号括号我们因为要转加转运符

所以说我们直接不要了

不解答再测试一下

好词条已经匹配出来了

说明我们到目前为止

规则一次性完成

还没有出现问题

这个这个花括号为什么不需要呢

大家也可以保留

但是前面要加个反斜杠

它要转转一符

我们呢

列表已经匹配出来

那么我们下一步是导出点

导出到到哪一列呢

第一个是任务列表

第二个是匹配结果

我们任务列表是分发的任务

这个是结果

我们需要的是结果匹配结果

然后我们选择要哪些链来源

要a元

要不要

我们如果不确定

直接全选

拖一下全选

或者是按着ctrl键点一下

可以多选

直接全选吧

然后导出excel

然后开始导出

导出完成

我们在

现在我们就已经导出好了

那么我们如何去

把多页的匹配出来呢

我们现在是第一页

我们先复制一下网址

刚刚说了

这个是台阶水机

那么我们要匹配前五页怎么办

那么这个飞机我们改成2345再试一下

首先复制下来

然后点击工具

然后生成序列网址

把这个粘贴定理

这个需要变了

这个网址给它改成星号

一改成星号

然后生成十个

我们生成十页吧

点击生成

那么网址生成出来了

然后双击复制关掉

把这个全选粘贴进来

那么实验我们粘贴进来了

我们再测试一下

我们不需要测试

我们测试试用

直接直接刷三三行吧

点测试好了

开始匹配十条

十条好

那么我们抓抓了30条

三个页面已经抓了30条

看一下我们30条已经出来了

如果有100页

那么就是1~100就可以了

本站所有文章、数据、图片均来自互联网,一切版权均归源网站或源作者所有。如果侵犯了你的权益请来信告知我们删除。

标签:
微信

kk软件

提升您的工作效率!

微信