原创:Python爬虫实战之爬取代理ip

vhhi 2021-11-12 原文

　　编程的快乐只有在运行成功的那一刻才知道QAQ

　　目标网站:https://www.kuaidaili.com/free/inha/ #若有侵权请联系我

　　因为上面的代理都是http的所以没写这个判断

　　代码如下:

 1 #!/usr/bin/env python
 2 # -*- coding: utf-8 -*-
 3 import urllib.request
 4 import re
 5 import time
 6 n = 1
 7 headers = {\'User-Agent\':\'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36\'}
 8 def web(url):
 9     req=urllib.request.Request(url=url,headers=headers)
10     response = urllib.request.urlopen(url)
11     html = response.read().decode(\'UTF-8\',\'ignore\')
12     ip = r\'[0-9]+(?:\.[0-9]+){3}\'
13     port = r\'"PORT">(\d{0,1}\d{0,1}\d{0,1}\d{0,1}\d)<\'
14     out = re.findall(ip,html)
15     out1 = re.findall(port,html)
16     i = 0
17     dictionary = {}
18     while i <= 14:
19         dictionary[0] = (out[i],out1[i])
20         store(dictionary)
21         i += 1
22     print(out,\'\n\',out1)
23 def store(dictionary):
24     with open(\'ip.txt\',\'a\') as f:
25         c = \'ip:\' + dictionary[0][0] + \'\tport:\' + dictionary[0][1] + \'\n\'
26         f.write(c)
27         print(\'store successfully\')        
28 while n <= 3313:
29     url1 = "https://www.kuaidaili.com/free/inha/"
30     url = url1 + str(n) +\'/\'
31     web(url)
32     time.sleep(5)
33     n += 1

本文链接：https://www.cnblogs.com/vhhi/p/12380560.html

随机推荐

windows server安装配置MySQL

引言因为各种各样的原因，好久没来园子发表随笔了。像工作忙没时间啊，文章内容缺乏亮点啊，没有技术新颖性啊之类。 […]...

机器学习算法之决策树

决策树大家都知道二叉树，决策树算法就是利用二叉树的结构，利用数据特征对数据集进行分类，直到所有具有相同类型的 […]...

DSOFramer 控件修改成功

1.Html电子印章、手写签名系统演示：http://www.dianju.com.cn/video.htm […]...

Mac技巧之苹果电脑上将一个软件进程的 CPU 占用率限制在指定范围内：cputhrottle

苹果电脑 Mac OS X 系统上，我们可以用 cputhrottle 这个免费工具，配合活动监视器和终端，把 […]...

DRF Django REST framework 之视图组件（四）

404...

TTL 生存时间介绍 (转)

TTL 生存时间介绍 (转) TTL: (Time To Live)生存时间,是IP协议包中的一个值，它告诉网 […]...

怎么爬取网络数据

目前针对网络数据采集通常通过网络爬虫来实现,本文将对网络数据和网络爬虫的进行系统描述。文章来源：网络大数据 […]...

Android存储及getCacheDir()、getFilesDir()、getExternalFilesDir()、getExternalCacheDir()区别

目录1.内部存储2.外部存储存储介绍：Android系统分为内部存储和外部存储，内部存储是手机系统自带的存储，一般空间都比较小，外部存储一般是SD卡的存储，空间一般都比较大，但不一定可用或者剩余空间可能不足。一般存储内容都会放在外部存...

原创:Python爬虫实战之爬取代理ip

原创:Python爬虫实战之爬取代理ip的更多相关文章

随机推荐

热门专题

目录导航