基于python的热门微博数据可视化分析【python-爬虫-大数据定制】

IT毕设小码

前言

随着社交媒体的广泛应用，尤其是微博平台的日益普及，海量的数据不断生成。根据最新统计，中国微博用户已超过6亿，日均互动量达数亿次，这些数据蕴含了丰富的社会信息和舆论趋势。然而，数据量的急剧增加使得传统的数据分析方法难以处理和解释这些信息。特别是在面对大规模的数据时，现有的分析工具在处理效率和数据可视化方面存在不足。因此，开发一个高效、综合的数据处理和可视化系统显得尤为重要，以帮助用户更好地理解和利用这些数据。

本课题旨在开发一个基于Python的大数据处理与可视化平台。系统通过Scrapy爬虫技术自动获取微博数据，并利用Spark、Hive和Hadoop等大数据框架进行数据处理和分析。为确保数据的准确性和有效性，课题中还采用了先进的深度学习算法进行数据清洗。最终，通过Django框架开发的Web平台，将数据进行可视化展示。用户能够通过该平台实时查看微博数据的各类统计信息和趋势分析，从而获得直观、清晰的数据洞察。

本课题的研究不仅提升了数据处理的效率，还增强了数据展示的直观性和易用性。通过将数据分析与可视化有机结合，系统为用户提供了一个便捷的工具，帮助其更好地理解社交媒体数据背后的信息。这一成果不仅对企业市场分析、舆情监测等应用场景具有重要意义，还为学术研究提供了一个新的数据分析平台。综上所述，本课题不仅推动了大数据技术在实际应用中的发展，也为社交媒体数据分析提供了有效的解决方案。

视频展示

开发环境

大数据技术：Hadoop、Spark、Hive

开发技术：Python、Django框架、Vue、Echarts

软件工具：Pycharm、DataGrip、Anaconda

可视化工具 Echarts

图片展示

代码展示

import queue
import re
import threading

import requests
from faker import Faker
from flask_migrate import Migrate, MigrateCommand
from flask_script import Manager



    
from lxml import etree

from app import create_app
from exts import db
from models import Poem, Poet

user_agent = Faker('zh-CN').user_agent()

app = create_app()
manager = Manager(app)
Migrate(app, db)
manager.add_command('db', MigrateCommand)


def get_header():
return {
'User-Agent': user_agent,
'Connection': 'close'
}


# 多线程爬取，由于可能导致数据爬取不全，数据诗词总数约为20w+数据
@manager.command
def spider():
class Shici(object):

def __init__(self, thread=5):
self.poet_queue = queue.Queue()  # 诗人
self.thread = thread
self.base_url = 'http://www.shicimingju.com'

def get_poet_url(self):



    
for i in range(1, 13054):
url = 'http://www.shicimingju.com/chaxun/zuozhe/{}.html'.format(i)

self.poet_queue.put(url)

def Spider(self):
while not self.poet_queue.empty():
url = self.poet_queue.get()
req = requests.get(url, headers=get_header())
if req.status_code == 200:

req.encoding = 'utf-8'
html = etree.HTML(req.text)
name = html.xpath('/html/body/div[4]/div[2]/div[1]/div[2]/div[1]/h4/a/text()')[0]
dynasty = html.xpath('/html/body/div[4]/div[2]/div[1]/div[3]/div[1]/div[2]/a/text()')
if len(dynasty) == 0:
dynasty = '未知'
else:
dynasty = dynasty[0]
introduction = html.xpath('/html/body/div[4]/div[2]/div[1]/div[2]/div[1]/div[1]')[0].xpath(
'string(.)').strip()
with app.app_context():



    
poet = Poet(name=name, dynasty=dynasty, introduction=introduction)
db.session.add(poet)
db.session.commit()
id = poet.id
poem_num = html.xpath('/html/body/div[4]/div[2]/div[1]/div[3]/div[2]/div[2]/a/text()')[0][:-1]
poet_url_list = []
for i in range(1, int(int(poem_num) / 40) + 2):
poet_id = re.sub("\D", "", url)
poet_page_url = 'http://www.shicimingju.com/chaxun/zuozhe/{}_{}.html'.format(poet_id, i)
req1 = requests.get(url=poet_page_url, headers=get_header())
if req1.status_code == 200:
req1.encoding = 'utf-8'
list_html = etree.HTML(req1.text)
poet_url = list_html.xpath('//*/h3/a/@href')
poet_url_list += poet_url
poet_url_list = map(lambda x: self.base_url + x, poet_url_list)
for url in poet_url_list:



    
print(url)
req2 = requests.get(url, headers=get_header())
if req2.status_code == 200:
req2.encoding = 'utf-8'
poet_html = etree.HTML(req2.text)
title = poet_html.xpath('//*[@class="card"]/h1/text()')[0]
content = '\n'.join(poet_html.xpath('//*[@class="item_content"]/text()')).strip()
if not content:
content = '\n'.join(poet_html.xpath('//*[@class="para"]/text()')).strip()
if len(poet_html.xpath('//*[@class="shangxi_content"]')) == 0:
analysis = ''
else:
analysis = poet_html.xpath('//*[@class="shangxi_content"]')[0].xpath(
'string(.)').strip()
with app.app_context():
poem = Poem(title=title, content=content, analysis=analysis, author=id)
db.session.add(poem)
db.session.commit()



    

def run(self):
self.get_poet_url()
thread_list = []
for i in range(self.thread):
t = threading.Thread(target=self.Spider)
thread_list.append(t)
for t in thread_list:
t.setDaemon(True)
t.start()
for t in thread_list:
t.join()
self.Spider()

a = Shici()
a.run()


if __name__ == '__main__':
manager.run()

联系我们

公众号：IT毕设小码

点击上方蓝字关注我们