爬虫小说

ZHANG576433951 2021-08-30 原文


爬虫小说

# -*- coding:utf -8 -*-
import urllib2
import re
def getlist():
    html = urllib2.urlopen(“http://www.quanshu.net/book/0/269/”).read()
    reg = re.compile(r\'<li><a href=”(.*?)” title=”.*?”>(.*?)</a></li>\’)
    urls = re.findall(reg,html)
    return urls
def getcontent(url):
    html = urllib2.urlopen(“http://www.quanshu.net/book/0/269/”+url).read()              #url为字符串要加到引号外边
    html = html.decode(\’gbk\’).encode(\’utf-8\’)            #decode(”gdk”)把decode编码转换为Unicode      #encode(“utf-8”)把Unicode编码转换为utf-8
    reg = re.compile(r\'</script>&nbsp;&nbsp;&nbsp;&nbsp(.*?)<script type=”text/javascript”>\’,re.S)    re.S换行
    content = re.findall(reg,html)[0]
    return  content
for i in getlist():
    content = getcontent(i[0])
    content = content.replace(\'<br /><br />&nbsp;&nbsp;&nbsp;&nbsp;\’,\’\r\n\’)    #\r\n换行

    try:
        with open(i[1]+\’.txt\’,\’wb\’) as f:          #w表示可写  b表示二进制
            f.write(content)
    except Exception,e:
        continue

发表于
2016-10-29 16:26 
张家欢。。 
阅读(141
评论(0
编辑 
收藏 
举报

 

版权声明:本文为ZHANG576433951原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://www.cnblogs.com/ZHANG576433951/p/6011165.html

爬虫小说的更多相关文章

随机推荐

  1. 【转】eclipse怎么设置字体大小 – wi100sh

    【转】eclipse怎么设置字体大小 原文网址:http://jingyan.baidu.com/articl […]...

  2. 使用 Python 可以做什么?

    翻译自 《Python学习手册(第5版)》 Systems Programming Python 对操作系统服 […]...

  3. oled屏幕模块

    oled屏幕模块似乎是厂家提供的 也许可以根据屏幕驱动芯片去写 根据现在了解的芯片一般有两个:SH1106和S […]...

  4. HCNP Routing&Switching之OSPF LSA类型

    LSA是ospf链路状态信息的载体,是LSDB的最小组成单位,即lsdb是由一条条LSA构成的;所有的LSA都 […]...

  5. element-ui 源码架构

    1、项目结构 2、src下的入口文件 https://github.com/ElemeFE/element/b […]...

  6. 傅里叶级数与复的傅里叶级数、傅里叶变换

    eiθ=cosθ+isinθ⇒⎧⎩⎨⎪⎪⎪⎪cosθ=12eiθ+12e−iθsinθ=12ieiθ−12ie […]...

  7. 电容屏、电阻屏基础知识

    相信大家很多都用上了“触”屏手机,那么,大家对自已手机的屏幕又了解多少呢?这里为大家简单讲解一下。    目前 […]...

  8. httprunner(11)运行测试报告

    前言 受益于pytest的集成,HttpRunner v3.x可以使用pytest所有插件,包括pytest- […]...

展开目录

目录导航