有时候消息来源不只一处,但是内容格式相似,所以不需要每个数据单独存储,不然太麻烦了,尤其来源太多的时候。本次我们以几个知名热榜,百度,头条,知乎,微博为例,把数据存储到一个表中。
因为同一个表中,我们相同内容的字段名应该一样,我们暂且定为 来源,索引,标题,热度,URL吧。
分析:
百度热搜一般在百度搜索结果页右侧或者主页下侧,在主页下侧的一般每页显示6条,在搜索结果页一般显示10条或者15条,这个要判断好,不然会导致重复数据产生,总共是30条。
由于在搜索页右侧的百度热搜有显示热度,所以我们使用搜索页右侧的方式。假设起始地址为: https://www.baidu.com/s?wd=%23%E7%A8%8B%E5%BA%8F%E5%91%98%23&rsv_spt=1&rsv_iqid=0xa42c26820000264e&issp=1&f=8&rsv_bp=1&rsv_idx=2&ie=utf-8&rqlang=&tn=baiduhome_pg&ch=&rsv_enter=0&rsv_dl=ib&rsv_btype=i ,搜索页每页10条,共3页。
编辑规则:
1. 直接进入到指定页面。
2. 编辑字段:点开迷你派采集器,选择当前是列表页-点击翻页采集按钮更多,选中块,设置好字段索引,标题,热度,URL。
3. 编辑分页:切换到分页tab,Next翻页元素选择 页面上的换一换,我们设置分页只采集3页就好。
4. 添加来源字段:选择开始节点,添加操作单个参数输入,参数名称命名为来源,默认值设定为百度。
5. 保存设置规则命名为 聚合热搜-百度-规则
,数据表命名为 聚合热搜-数据
,后面的规则,直接选这个规则即可。
规则结构大致为:
分析:
头条热榜显示在头条首页右下侧,不过没有热度字段,每页10条,共5页,总共50条。
编辑规则:
跟百度规则类似,只是分页可以点击5下,来源默认值设置为头条即可。规则命名为 聚合热搜-头条-规则
,数据表选择 聚合热搜-数据
。
分析:
知乎直接有个tab专门显示知乎热榜,索引,标题,热度,地址为 https://www.zhihu.com/hot
编写规则:
跟百度规则类似,分页设置为不需要分页,来源默认值设置为知乎即可,规则命名为 聚合热搜-知乎-规则
,数据表选择 聚合热搜-数据
。
分析:
微博完整热搜榜单是个麻烦事,如果操作解析请求好像很简单,但是使用迷你派采集器的话,还是有点麻烦,只能查询微博首页右侧前十基本热搜了。
基本列表还有些数据带有广告和置顶的数据,如图:
编辑规则:
1. 进入微博首页
2. 编辑字段:点开迷你派采集器,选择当前是列表页-点击翻页采集按钮更多,选中block,设置好字段索引,标题,热度,URL
3. 分页设置为不需要
4. 添加来源字段:选择开始节点,添加操作单个参数输入,参数名称命名为来源,默认值设定为微博。
5. 去掉置顶和广告数据:可以看到置顶和广告数据没有热度,所以在开始节点下, 设置Tab,添加条件触发器,不输出行,满足条件为热度为空,如图:
6. 保存规则:规则命名为 聚合热搜-微博-规则
,数据表选择 聚合热搜-数据
。
这样所有规则运行一遍后就会有数据了,所有热搜数据就在一个表里面。格式如下:
顺序有些杂乱,毕竟免费会员可以同时执行两个规则,所以这个也是有可能的,如果高级会员的话,可以使用规则触发机制,一个规则执行完成之后,可以执行下一个规则,这样就可以实现一键抓取规则了。
下一篇
一、學校簡介武漢理工大學是教育部直屬全國重點大學,是首批列入國傢“211工程”和“雙一流”建設高校,是教育部和交通運輸部等部...