pyppteer下

启动pyppteer
切图
获取响应头，响应头状态，cookies
获取当前页面标题
获取页面html
- 第一种：获取整个页面html
- 第二种：只获取文本
注入JS，控制上下滚动
选择器
- 获取元素内部的文本、属性
- get_html
模拟输入，鼠标点击
taobao登录

启动pyppteer

import asyncio
from pyppeteer import launch


async def main():
    # headless参数设为False，则变成有头模式
    browser = await launch(
        {'headless': False}
    )

    # 打开一个页面
    page = await browser.newPage()
    
    # 超时间见 10000 毫秒
    res = await page.goto('https://www.cnblogs.com/guyouyin123/p/12690418.html', options={'timeout': 10000})
    # 等待
    await asyncio.sleep(2)

    print(await page.content())  # 返回html代码
    resp_headers = res.headers  # 响应头
    resp_status = res.status  # 响应状态
    
# 程序启动入口
asyncio.get_event_loop().run_until_complete(main())

切图

# 设置页面视图大小
await page.setViewport(viewport={'width': 1280, 'height': 800})
# 是否启用JS，enabled设为False，则无渲染效果
await page.setJavaScriptEnabled(enabled=True)
# 超时间见 10000 毫秒
res = await page.goto('https://www.cnblogs.com/guyouyin123/p/12690418.html', options={'timeout': 10000})
# 等待
await asyncio.sleep(2)

# 截图 保存图片
await page.screenshot({'path': 'cnblog.png'})

获取响应头，响应头状态，cookies

async def main():
    # headless参数设为False，则变成有头模式
    browser = await launch(
        {'headless': False}
    )
    # 打开一个页面
    page = await browser.newPage()
    
    # 超时间见 10000 毫秒
    res = await page.goto('https://www.cnblogs.com/guyouyin123/p/12690418.html', options={'timeout': 10000})
    # 等待
    await asyncio.sleep(2)
	resp_headers = res.headers  # 响应头
    resp_status = res.status  # 响应状态
    cookies = page.cookies()
    
    print(resp_headers)
    print(resp_status)
    print(page.cookies())
    
# 程序启动入口
asyncio.get_event_loop().run_until_complete(main())

获取当前页面标题

print(await page.title())

获取页面html

import asyncio
from pyppeteer import launch


async def main():
    # headless参数设为False，则变成有头模式
    browser = await launch(
        {'headless': False}
    )
     # 打开一个页面
    page = await browser.newPage()
	# 是否启用JS，enabled设为False，则无渲染效果
    await page.setJavaScriptEnabled(enabled=True)

    # 超时间见 10000 毫秒
    res = await page.goto('https://www.cnblogs.com/guyouyin123/p/12690418.html', options={'timeout': 10000})
    # 等待
    await asyncio.sleep(2)
    
    print(await page.content())  # 返回html代码

第一种：获取整个页面html

 res = await page.goto('https://www.cnblogs.com/guyouyin123/p/12690418.html', options={'timeout': 10000})
 # 等待
 await asyncio.sleep(2)

print(await page.content())  # 返回html代码

第二种：只获取文本

res = await page.goto('https://www.cnblogs.com/guyouyin123/p/12690418.html', options={'timeout': 10000})
# 等待
await asyncio.sleep(2)
content = await page.evaluate(pageFunction='document.body.textContent', force_expr=True)
print(content)

注入JS，控制上下滚动

res = await page.goto('https://www.cnblogs.com/guyouyin123/p/12690418.html', options={'timeout': 10000})
# 等待
await asyncio.sleep(2)

await page.evaluate('window.scrollBy(0, document.body.scrollHeight)')

# js
window.scrollTo(0,100)  # 向下滑动100
window.scrollTo(0,500)  # 向下滑动500
window.scrollTo(0,document.body.scrollHeight)  # 滑到底部
window.scrollTo(0,document.body.scrollHeight-500) # 滑到-500

选择器

Page.querySelector()  # CSS选择器
Page.querySelectorAll()  # CSS选择器选所有
Page.xpath()  # xpath选择器

# 简写方式为：
Page.J(), Page.JJ(), and Page.Jx()

获取元素内部的文本、属性

res = await page.goto('https://www.cnblogs.com/guyouyin123/p/12690418.html', options={'timeout': 10000})
# 等待
await asyncio.sleep(2)

await page.evaluate('window.scrollBy(0, document.body.scrollHeight)')

# 方式一：获取h1标签内容--执行JS方式
element = await page.querySelector('h1')
title = await page.evaluate('(element) => element.textContent', element)

# 方式二：获取文本
element = await page.querySelector('h1')
title = await (await item.getProperty('textContent')).jsonValue()

# 方式三：获取属性src,href
element = await page.querySelector('h1')
title_link = await (await item.getProperty('href')).jsonValue()

get_html

async def get_html(url):
    browser = await pyppeteer.launch(headless=True, args=['--no-sandbox'])
    page = await  browser.newPage()
    res = await page.goto(url, options={'timeout': 3000})
    data = await page.content()
    title = await page.title()
    resp_cookies = await page.cookies()  # cookie
    resp_headers = res.headers  # 响应头
    resp_status = res.status  # 响应状态
    print(data)
    print(title)
    print(resp_headers)
    print(resp_status)
    return xxx

模拟输入，鼠标点击

# 模拟输入 账号密码  {'delay': rand_int()} 为输入时间
await page.type('#fm-login-id', "用户名")
await page.type('#fm-login-password', "密码", )

await page.waitFor(1000) # 等待时间
await page.click("#J_SubmitStatic")  # 点击

taobao登录

import asyncio
from pyppeteer import launch


async def main():
    # headless参数设为False，则变成有头模式
    browser = await launch(
        {'headless': False}
    )
    # 打开一个页面
    page = await browser.newPage()
    await page.setViewport(viewport={'width': 1280, 'height': 800})

    res = await page.goto('https://login.taobao.com/', options={'timeout': 10000})
    await page.type('#fm-login-id', "123456")
    await page.type('#fm-login-password', "aaa", )
    await page.waitFor(1000)  # 等待时间
    
    slider = await page.querySelector('#nc_1_n1z') # 是否有滑块
    if slider:
        print('有滑块')
        input()

    else:
        print('没有滑块')
        input()

    await page.click("#login-form > div.fm-btn > button")  # 点击登录
# 程序启动入口
asyncio.get_event_loop().run_until_complete(main())

本文链接：https://www.cnblogs.com/guyouyin123/p/12915951.html

pyppteer下

启动pyppteer

切图

获取响应头，响应头状态，cookies

获取当前页面标题

获取页面html

第一种：获取整个页面html

第二种：只获取文本

注入JS，控制上下滚动

选择器

获取元素内部的文本、属性

get_html

模拟输入，鼠标点击

taobao登录

pyppteer下的更多相关文章

随机推荐

热门专题

目录导航