1.选一个自己感兴趣的主题。

 针对个人兴趣,本次大作业选择了虎扑论坛这个平台,对虎扑步行街主干道进行数据采集和分析。网址为:https://bbs.hupu.com/bxj

2.网络上爬取相关的数据。

import requests
from bs4 import BeautifulSoup

url = \'https://bbs.hupu.com/bxj\'
res = requests.get(url)
res.encoding=\'utf-8\'   
soup=BeautifulSoup(res.text,\'html.parser\')

for news in soup.select(\'.titlelink\'):
    if len(news.select(\'a\'))>0:
        title=news.select(\'a\')[0].text
        burl=news.select(\'a\')[0][\'href\']
        addurl=\'https://bbs.hupu.com{}\'.format(burl)
        
        resd=requests.get(addurl)
        resd.encoding=\'utf-8\'
        soupd=BeautifulSoup(resd.text,\'html.parser\')
        time=soupd.select(\'.stime\')[0].text                       
        source=soupd.select(\'.u\')[0].text
        print(title,addurl,time,source)

反映网页爬取结果如下:

3.进行文本分析,生成词云。

import requests
import jieba
from bs4 import BeautifulSoup
import re

url = \'https://bbs.hupu.com/bxj\'
res = requests.get(url)
res.encoding=\'utf-8\'   
soup=BeautifulSoup(res.text,\'html.parser\')

for news in soup.select(\'.titlelink\'):
    if len(news.select(\'a\'))>0:
        title=news.select(\'a\')[0].text
        burl=news.select(\'a\')[0][\'href\']
        addurl=\'https://bbs.hupu.com{}\'.format(burl)
        
        resd=requests.get(addurl)
        resd.encoding=\'utf-8\'
        soupd=BeautifulSoup(resd.text,\'html.parser\')
        p = soupd.select(\'.floor-show\')[0].text
        break

words = jieba.lcut(p)
ls = []
counts = {}
for word in words:
    ls.append(word)
    if len(word) == 1:
        continue
    else:
        counts[word] = counts.get(word,0)+1
items = list(counts.items())
items.sort(key = lambda x:x[1], reverse = True)
for i in range(8):
    word , count = items[i]
    print ("{:<5}{:>2}".format(word,count))

from wordcloud import WordCloud
import matplotlib.pyplot as plt    
cy = WordCloud(font_path=\'msyh.ttc\').generate(p)
plt.imshow(cy, interpolation=\'bilinear\')
plt.axis("off")
plt.show()

反映网页爬取文本分析结果如下:

反映网页爬取生成词云结果如下:

4.对文本分析结果解释说明。

 根据文本分析的结果可以看出步行街、版块、分类等词占了该网页的主要部分。其中在指定的篇幅文章中步行街、实名制、上级、访问、手机号等等占主要部分,说明在当前的网络形势下根据上级相关部门的指示,实名制和单一手机号的访问日渐严格,说明当前网络形势对安全的要求越来越高。

 

版权声明:本文为xieruikai原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://www.cnblogs.com/xieruikai/p/7764608.html