python优雅地爬虫

我需要获得新闻,然后tts,在每天上班的路上可以听一下。具体的方案后期我也会做一次分享。先看我喜欢的万能的老路:获得html内容-> python的工具库解析,获得元素中的内容,完成。

好家伙,我知道我爬取失败了。一堆js代码,看得我烦。我一去看页面发现:原来新闻的获得是走的接口,然后js插入文档的,于是啃接口。

又被难住了!接口的pageCallback是什么,感觉我的经验,这个是复杂的js加密之后的,因为没有带这个参数,可以轻易的通过接口获得想要的数据。

假如没有这个参数,我其实可以为所欲为了。所以,分析pageCallback这个参数的加密非常耗时间了。也不打算研究,我决定换一种方式去研究。

拿出我的终极大招:Selenium。模拟用户的操作,该不会拦截我吧。

爬虫2.0

使用Selenium模拟用户爬取页面内容,并输出成文件。关于Selenium是什么,欢迎看这篇文章:selenium Python教程。在这里,我只讲我主要的实现。

首先作为一款工具脚本,我们应该不喜欢窗口界面吧,除非你需要动态的观察程序的操作。所以,我开启了无头浏览器模式。

# 无头浏览器
chrome_options = webdriver.ChromeOptions()
chrome_options.add_argument('--headless')
driver = webdriver.Chrome(options=chrome_options)

<< · Back Index ·>>

发表回复

相关推荐

计算力学第一章小结

1.思路 在工程和科技领域,对于许多的数理问题,人们可以给出他们的数学模型,即应遵守的基本方程(常微分方程或偏微分 ...

· 2分钟前

新手小白刷酸篇|医学生教你超详细刷酸保姆级教程,这两个刷酸步骤80%新手都会忽略,用错=烂脸!

忽然发现自己学医这么久都白学了! 基础的皮肤小问题:去黑头、改善毛孔粗大、祛闭口痘痘、改善粗糙肌肤…… 找对&用对酸 ...

· 2分钟前

opencv imshow函数详解

我使用的版本是Opencv4.60和visual studio 2022版本。

· 6分钟前

運動營養學-能量消耗

咱們先來看一下這四張小圖片。上篇介紹到的是能量的攝入,下面咱們來介紹能量的消耗。人體能量的消耗大概有如下幾個方面。第...

· 6分钟前

腎積水結石軟鏡手術及拔出雙J管詳細全程及感受(男)

體檢查出腎積水輕度,輸尿管有結石,疫情期間去哈醫大二院問診,竟然被醫生告知做不瞭超聲波排石,沒有那設備,很震驚,全...

· 11分钟前