python优雅地爬虫

xiaolong www.icpchaxun.com (5) 1周前

我需要获得新闻，然后tts，在每天上班的路上可以听一下。具体的方案后期我也会做一次分享。先看我喜欢的万能的老路：获得html内容-> python的工具库解析，获得元素中的内容，完成。

好家伙，我知道我爬取失败了。一堆js代码，看得我烦。我一去看页面发现：原来新闻的获得是走的接口，然后js插入文档的，于是啃接口。

又被难住了！接口的pageCallback是什么，感觉我的经验，这个是复杂的js加密之后的，因为没有带这个参数，可以轻易的通过接口获得想要的数据。

假如没有这个参数，我其实可以为所欲为了。所以，分析pageCallback这个参数的加密非常耗时间了。也不打算研究，我决定换一种方式去研究。

拿出我的终极大招：Selenium。模拟用户的操作，该不会拦截我吧。

爬虫2.0

使用Selenium模拟用户爬取页面内容，并输出成文件。关于Selenium是什么，欢迎看这篇文章：selenium Python教程。在这里，我只讲我主要的实现。

首先作为一款工具脚本，我们应该不喜欢窗口界面吧，除非你需要动态的观察程序的操作。所以，我开启了无头浏览器模式。

# 无头浏览器 chrome_options = webdriver.ChromeOptions() chrome_options.add_argument('--headless') driver = webdriver.Chrome(options=chrome_options)

赞助网站

<< · Back Index ·>>

请先登录账户再评论哦

相关推荐