pyquery全面总结

pyquery的语法和jQuery很像,所以熟悉jQuery的人估计会选择用这个库来解析网页。本文用pyquery的使用来展示css选择器的用法,css选择器是个人认为解析网页最方便的方法。

本文分为如下几个部分

  • 解析html流程说明
  • 提取内容
  • 识别标签

解析html流程说明

我们先看一个例子,了解使用pyquery的流程

在下面的html代码中其提取如下部分

  • 标题
  • 文字1
  • 文字1和文字2
  • 列表1第1项 列表1第2项

a = '''<title>标题</title>
<body>
<ul class='list1'>
<li>列表1第1项</li>
<li>列表1第2项</li>
</ul>
<p class='first'>文字1</p>
<p class='second'>文字2</p>
<ul class='list2'>
<li>列表2第1项</li>
<li>列表2第2项</li>
</ul>
</body>'''

from pyquery import PyQuery as pq

doc = pq(a)
doc('title').text() # '标题'
doc('p').filter('.first').text() # '文字1'
doc('p[class=first]').text() # 同上,只是这种方法支持除了id和class之外的属性筛选
doc('p').text() # '文字1 文字2'
doc('ul').filter('.list1').find('li').text() # '列表1第1项 列表1第2项'
doc('ul.list1 li').text() # 简化形式
doc('ul.list1 > li').text() # 节点之间用>连接也可以,但是加>只能查找子元素,空格子孙元素

<< · Back Index ·>>

发表回复

相关推荐

書籍的本質到底是什麼?我們為什麼要讀書?

書籍是用文字、圖畫和其他符號,在一定材料上記錄各種知識,清楚地表達思想,並且制裝成卷冊的著作物,為傳播各種知識和思想...

· 10分钟前

防雾眼镜布是智商税吗?哪种防雾眼镜布是真的有用?

冬天到了!又到了起雾的季节! 口罩+眼镜=一秒起雾! 于是眼镜党们的疑惑又来了:如何戴口罩眼镜不起雾? 往年我也有这样烦 ...

· 12分钟前

如何與命運抗爭?

文|袁運錄這是千千萬萬抑鬱癥患者面臨的同樣問題。你為什麼抑鬱?因為你在命運面前被打趴瞭下來,因為你鬥不過命運,所以你才...

· 12分钟前

那些恐龍時代的巨人

一說起恐龍時代的巨人,大傢會不約而同想到一個名字那就是蜥腳類,但是蜥腳類恐龍傢族不全是大個子,也有袖珍版成員。馬紮爾...

· 12分钟前

深污!媽媽送18歲女兒不可描述的禮物,網友們都集體凌亂瞭……

記者:Lydia來源:BuzzFeed咳咳,各位L社的小夥伴們,今天要開車瞭,大傢請坐穩……幾天前,一位外國女網友在推特上分享瞭媽媽...

· 12分钟前