极验滑块验证的使用

zlel 2018-05-15 原文

# 爬取河南企业信用信息公示系统为案例
# 案例网址 http://gsxt.haaic.gov.cn/index.jspx

下面这个选项一定要勾选

极验打码要的参数

要爬取数据所在的页面

根据上面的截图然后找到相对应的菜蔬然后下面这个代码就可以实现打印list页面的源代码，剩下的就是用解析器解析的部分。

import requests
import json
from urllib.parse import quote


# 获取极验网的gt和challenge
url = 'http://gsxt.haaic.gov.cn/registerValidate.jspx?t=1526366559281'
s = requests.session()
headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.139 Safari/537.36',}
response = s.get(url,headers=headers).text
source = json.loads(response)
fan =  s.get("http://jiyanapi.c2567.com/shibie?user=username&pass=123456&return=json&ip=&gt=" + source['gt'] + "&gt=" + source['challenge']).text
fang = json.loads(fan)



# 获取页面要的参数

name = quote(quote('中国'))
data = {'searchText': '中国',
        'geetest_challenge': fang['challenge'],
        'geetest_validate': fang['validate'],
        'geetest_seccode': fang['validate']+'|jordan',}
url = 'http://gsxt.haaic.gov.cn/validateSecond.jspx'

response = s.post(url,headers=headers,data=data).text
response = json.loads(response)


url = 'http://gsxt.haaic.gov.cn/'+response['obj']+'&searchType=1&entName='+name
response = s.get(url,headers=headers).text
print(response)