Scrapy-多层爬取天堂图片网
1.根据图片分类对爬取的图片进行分类
开发者选项 –> 找到分类地址
爬取每个分类的地址通过回调函数传入下一层
name = 'sky'
start_urls = ['http://ivsky.com/']
def parse(self, response):
selector = Selector(response)
# print(response.text)
types = selector.xpath("//div[@class='kw']/a")
for type in types:
typeUrl = type.xpath("@href").extract()[0] #分类地址
typeName = type.xpath("text()").extract()[0] #分类名称
# print(typeUrl+" "+typeName)
yield Request(self.start_urls[0]+typeUrl,callback=self.parseTotalPage,meta={'typeName':typeName})
2.点击进入一个类型 –> 开发者选项 –> 找到分页代码段
爬取每一个分页的地址也是通过回调函数传入下一层进行处理
def parseTotalPage(self,response): typeName = response.meta["typeName"] # print(typeName) selector = Selector(response) # print(response.text) pageList = selector.xpath("//div[@class='pagelist']//a//@href").extract() #每一页的地址 for page in pageList: yield Request(self.start_urls[0]+page,callback=self.parseGetImg,meta={'typeName':typeName})
3.获取一类图地址 –> 开发者选项 –> 找到相同类图的地址
爬取这类图的地址通过回调函数传入下一层进行处理
def parseGetImg(self,response):
typeName = response.meta["typeName"]
selector = Selector(response)
imgs = selector.xpath("//div[@class='il_img']//a")
for img in imgs:
imgUrl = img.xpath("@href").extract()[0] #一类图的地址
# print(imgUrl+" "+imgName)
yield Request(self.start_urls[0]+imgUrl,callback=self.parseGetMoreImg)
4.查看每张图片的html代码 –> 找到图片的地址
爬取每张图的地址
def parseGetMoreImg(self,response): # / html / body / div[3] / div[4] / ul / li[3] / div / a / img selector = Selector(response) # print(response.text) items = IvskyItem() items["imgName"] = response.meta["imgName"] items["imgUrl"] = selector.xpath("//div[@class='il_img']//a//img//@src").extract() # print(items) yield items
最后将图片传入pipelines.py 进行下载处理,要先在setting.py 设置,否则无法进入pipelines.py
ITEM_PIPELINES = { 'ivsky.pipelines.IvskyPipeline': 300, }
代码地址:https://github.com/WitW/ivsky
版权声明:本文为SpiderElliot原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。