spider-5

pyquery也是一个css选择器，id是# ，class是.

初始化

字符初始化

html = '''

    
    first item
    second item
    third item
    fourth item
    fifth item
    

'''
from pyquery import PyQuery as pq
doc = pq(html)
print(doc('li'))

URL初始化

from pyquery import PyQuery as pq
doc = pq(url='http://www.baidu.com')
print(doc('head'))

文件初始化

from pyquery import PyQuery as pq
doc = pq(filename='demo.html')
print(doc('li'))

基本css选择器

from pyquery import PyQuery as pq
doc = pq(html)
print(doc('#container .list li'))      /*先查id为container的，再查里边class为list的，再查list里边的li*/

查找元素

子元素

from pyquery import PyQuery as pq
doc = pq(html)
items = doc('.list')
print(items)
lis = items.find('li')
print(lis)

items.children()是直接子元素

父元素,一定只有一个

from pyquery import PyQuery as pq
doc = pq(html)
items = doc('.list')
container = items.parent()
print(container)

祖先元素items.parents()

from pyquery import PyQuery as pq
doc = pq(html)
items = doc('.list')
container = items.parents()
print(container)

兄弟元素

from pyquery import PyQuery as pq
doc = pq(html)
li = doc('.list .item-0.active')
print(li.siblings('.active'))

遍历

from pyquery import PyQuery as pq
doc = pq(html)
list = doc('li').items()
for li in lis:
    print(li)

获得信息

from pyquery import PyQuery as pq
doc = pq(html)
a = doc('.list.active a')
print(a)
print(a.attr('href'))
print(a.attr.href)

获取文本

from pyquery import PyQuery  as pq
doc = pq(html)
a = doc('.list.active a')
print(a.text())

获取HTML

from pyquery import PyQuery as pq
doc = pq(html)
li = doc('.list.active')
print(li)
print(li.html())

dom操作

addClass、removeClass

from pyquery import PyQuery as pq
doc = pq(html)
li = doc('.list.active')
print(li)
li.removeClass('active')
print(li)
li.addClass('active')
print(li)

attr、css

from pyquery import PyQuery as pq
doc = pq(html)
li = doc('.list.active')
print(li)
li.attr('name','link')              /*加了个name属性*/
print(li)
li.css('font-size','14px')       /*style属性*/
print(li)

remove

html = '''

    hello,world
    sjdfjkhsadkfhdjkf

'''
from pyquery import PyQuery as pq
doc = pq(html)
li = doc('.wrap')
print(li.text())
li.find('p').remove()
print(li.text())

伪类选择器

from puquery import PyQuery as pq
doc = pq(html)
li = doc('li:first-child')    /*选择第一个li*/
print(li)
li = doc('li:last-child')     /*选择最后一个li*/
print(li)
li = doc('li:nth-child(2)')    /*选择第二个li*/
print(li)
li = doc('li:gt(2)')           /*选择第二个后面的li*/
print(li)
li = doc('li:nth-child(2n)')      /*选择为偶数的li*/
print(li)
li = doc('li:contains(second)')      /*选择内容为‘second’的li*/
print(li)

xiaojun1234 / spider-5 Goto Github PK

spider-5's Introduction

spider-5

pyquery也是一个css选择器，id是# ，class是.

初始化

字符初始化

URL初始化

文件初始化

基本css选择器

查找元素

子元素

items.children()是直接子元素

父元素,一定只有一个

祖先元素items.parents()

兄弟元素

遍历

获得信息

获取文本

获取HTML

dom操作

addClass、removeClass

attr、css

remove

伪类选择器

spider-5's People

Contributors

Watchers

Recommend Projects

Recommend Topics

Recommend Org