# 爬取河南企业信用信息公示系统为案例
# 案例网址 http://gsxt.haaic.gov.cn/index.jspx

 

下面这个选项一定要勾选

极验打码要的参数

 

 要爬取数据所在的页面

 

 

 根据上面的截图然后找到相对应的菜蔬  然后下面这个代码就可以实现打印list页面的源代码 ,剩下的就是用解析器解析的部分。

 

 

import requests
import json
from urllib.parse import quote


# 获取极验网的gt和challenge
url = 'http://gsxt.haaic.gov.cn/registerValidate.jspx?t=1526366559281'
s = requests.session()
headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.139 Safari/537.36',}
response = s.get(url,headers=headers).text
source = json.loads(response)
fan =  s.get("http://jiyanapi.c2567.com/shibie?user=username&pass=123456&return=json&ip=&gt=" + source['gt'] + "&gt=" + source['challenge']).text
fang = json.loads(fan)



# 获取页面要的参数

name = quote(quote('中国'))
data = {'searchText': '中国',
        'geetest_challenge': fang['challenge'],
        'geetest_validate': fang['validate'],
        'geetest_seccode': fang['validate']+'|jordan',}
url = 'http://gsxt.haaic.gov.cn/validateSecond.jspx'

response = s.post(url,headers=headers,data=data).text
response = json.loads(response)


url = 'http://gsxt.haaic.gov.cn/'+response['obj']+'&searchType=1&entName='+name
response = s.get(url,headers=headers).text
print(response)

 

 

 

版权声明:本文为zlel原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://www.cnblogs.com/zlel/p/9042769.html