百度,头条,知乎,微博热榜聚合

有时候消息来源不只一处,但是内容格式相似,所以不需要每个数据单独存储,不然太麻烦了,尤其来源太多的时候。本次我们以几个知名热榜,百度,头条,知乎,微博为例,把数据存储到一个表中。

因为同一个表中,我们相同内容的字段名应该一样,我们暂且定为 来源,索引,标题,热度,URL吧。

百度热搜

分析:

百度热搜一般在百度搜索结果页右侧或者主页下侧,在主页下侧的一般每页显示6条,在搜索结果页一般显示10条或者15条,这个要判断好,不然会导致重复数据产生,总共是30条。

由于在搜索页右侧的百度热搜有显示热度,所以我们使用搜索页右侧的方式。假设起始地址为: https://www.baidu.com/s?wd=%23%E7%A8%8B%E5%BA%8F%E5%91%98%23&rsv_spt=1&rsv_iqid=0xa42c26820000264e&issp=1&f=8&rsv_bp=1&rsv_idx=2&ie=utf-8&rqlang=&tn=baiduhome_pg&ch=&rsv_enter=0&rsv_dl=ib&rsv_btype=i ,搜索页每页10条,共3页。

编辑规则:

1. 直接进入到指定页面。

2. 编辑字段:点开迷你派采集器,选择当前是列表页-点击翻页采集按钮更多,选中块,设置好字段索引,标题,热度,URL。

3. 编辑分页:切换到分页tab,Next翻页元素选择 页面上的换一换,我们设置分页只采集3页就好。

4. 添加来源字段:选择开始节点,添加操作单个参数输入,参数名称命名为来源,默认值设定为百度。

5. 保存设置规则命名为 聚合热搜-百度-规则,数据表命名为 聚合热搜-数据,后面的规则,直接选这个规则即可。

规则结构大致为:

头条热榜

分析:

头条热榜显示在头条首页右下侧,不过没有热度字段,每页10条,共5页,总共50条。

编辑规则:

跟百度规则类似,只是分页可以点击5下,来源默认值设置为头条即可。规则命名为 聚合热搜-头条-规则,数据表选择 聚合热搜-数据

知乎热榜

分析:

知乎直接有个tab专门显示知乎热榜,索引,标题,热度,地址为 https://www.zhihu.com/hot

编写规则:

跟百度规则类似,分页设置为不需要分页,来源默认值设置为知乎即可,规则命名为 聚合热搜-知乎-规则,数据表选择 聚合热搜-数据

微博热榜

分析:

微博完整热搜榜单是个麻烦事,如果操作解析请求好像很简单,但是使用迷你派采集器的话,还是有点麻烦,只能查询微博首页右侧前十基本热搜了。

基本列表还有些数据带有广告和置顶的数据,如图:

编辑规则:

1. 进入微博首页

2. 编辑字段:点开迷你派采集器,选择当前是列表页-点击翻页采集按钮更多,选中block,设置好字段索引,标题,热度,URL

3. 分页设置为不需要

4. 添加来源字段:选择开始节点,添加操作单个参数输入,参数名称命名为来源,默认值设定为微博。

5. 去掉置顶和广告数据:可以看到置顶和广告数据没有热度,所以在开始节点下, 设置Tab,添加条件触发器,不输出行,满足条件为热度为空,如图:

6. 保存规则:规则命名为 聚合热搜-微博-规则,数据表选择 聚合热搜-数据

最后

这样所有规则运行一遍后就会有数据了,所有热搜数据就在一个表里面。格式如下:

顺序有些杂乱,毕竟免费会员可以同时执行两个规则,所以这个也是有可能的,如果高级会员的话,可以使用规则触发机制,一个规则执行完成之后,可以执行下一个规则,这样就可以实现一键抓取规则了。

发表回复

相关推荐

沙雕視頻項目

現在短視頻占據瞭人類絕大多數的休閑時間,很多創業者也想通過短視頻實現漲粉變現,今天給小夥伴們分享一個超級簡單,很輕松...

· 2分钟前

山西公務員考試常識積累:中國地形地勢

行測常識判斷考點范圍很廣,一般包括政治、法律、經濟、人文、地理、科技、生活等方面,需要小夥伴們長時間不間斷的積累...

· 2分钟前

“六馍”?我想说“七馍”

六馍是什么意思? 六个蒸馍嘛? 很显然不是,要不然为啥这么火? 难道现代人的趣味如此低级,连六个蒸馍都数不清了?不敢数 ...

· 3分钟前

24考研擇校|武漢理工大學安全科學與應急管理學院工業工程與管理最新考情分析:初試復試內容、歷年復試分數線、復錄比、招生和錄取情況

一、學校簡介武漢理工大學是教育部直屬全國重點大學,是首批列入國傢“211工程”和“雙一流”建設高校,是教育部和交通運輸部等部...

· 4分钟前

什么是真正意义上的人体工学——以人体工学椅为例

这几年在消费市场上“人体工学”“人体工程学”等字眼被频繁提及,也被商家大量使用着。“人体工学”是什么?它会不会是商家搞的营 ...

· 5分钟前