周六开班倒计时：AI赋能的Python爬虫与文本分析师资培训

2024新课

随着信息化时代的深入发展，数据已成为推动科研和教育进步的重要动力。Python，作为一门高效、易读、易学的编程语言，已经成为数据科学、机器学习、人工智能等领域的首选工具。为了帮助更多的教育工作者和研究者掌握这一时代的关键技能，我们即将在本周六开启新一轮的Python爬虫与文本分析师资培训课程。

在这个数据驱动的时代，掌握Python和AI技术，将为您的学术研究带来无限可能。

2024年Python师资培训课程新课
基于AI辅助的爬虫与文本分析

Python师资培训自2020年至今已有300+老师和同学参加，

为学术量身打造的Python系列课程包括编程基础与数据清洗，爬虫，文本分析，机器学习，深度学习，

陈远祥老师精彩细致的授课和课后耐心的答疑得到了所有学员的一致好评~

师资培训

培训亮点

AI赋能的课程内容：结合最新的AI技术，本次培训将深入讲解Python在爬虫和文本分析中的应用，帮助您从海量数据中提取有价值的信息，为决策提供科学依据。

实战导向的教学方法：通过项目实战，将理论知识转化为实际技能，提升解决实际问题的能力。

资深讲师团队：由北京邮电大学的陈远祥博导亲授及亲自答疑，他丰富的教学和研究经验将为您提供高质量的学习体验。

师资培训

课程信息

培训时间：

爬虫遇见AI：2024年4月13-14日 (两天)

文本分析遇见AI：2024年4月20-21日 (两天)

培训方式：远程直播，提供录播回放

授课安排：9:00-12:00；14:00-17:00；答疑

首发优惠：赠送Python编程基础与数据清洗15小时课程（单独售价1300元）

师资培训

授课及答疑讲师

陈远祥，北京邮电大学副教授，博导。博士毕业于北京大学，2015年-2017年在北京大学做博士后研究。主要研究方向包括光无线融合技术，智能信号处理，以及基于人工智能的信号处理技术。发表SCI/EI学术论文80余篇，其中第一或通讯作者论文40余篇，申请发明专利4项。主持国家自然科学基金面上项目，国家重点研发计划子课题，国家自然科学基金青年项目及博士后基金等多个国家级和省部级项目。IEEE、OSA会员，Optics Express, IEEE Photonics Technology Letters，Photonics Journal，Applied Optics等多个SCI期刊审稿人。

师资培训

课程特色

研究加速器：专为学术研究者设计，通过掌握爬虫与文本分析技能，加速研究项目进度。

学术深度：深入探讨爬虫与文本分析的各个层面，包括最新的深度学习技术，确保您的研究方法论紧跟学术界的最新趋势。

论文发表加分：高质量的数据和深入的文本分析是发表高水平论文的关键。

师资培训

课程大纲

爬虫部分

（4月13-14日）

1. 爬虫与文本分析概述

目标：了解爬虫和文本分析常见应用场景，如何高效挖掘文本价值

1) 爬虫常见应用场景，结构化数据/文本数据的获取方法概述

2) 高效的编程语言实现结构化数据处理与文本分析的价值

2. 爬虫基础

目标：掌握爬虫基本概念，爬虫基本流程，掌握网页基础知识，学会简单网页制作

1) 什么是网络爬虫

2) 爬虫的基本原理

3) web网页基础

4) 爬虫基本流程

3. 页面解析和数据存储

目标：掌握正则表达式的用法，学会利用正则表达式进行文本信息提取，掌握常见文本信息存储方法

1) 基于正则表达式的文本信息提取

2) 文本文件存储

3) JSON文件存储

4. urllib和requests

目标：掌握两种基本的请求发送方法，通过案例展示，实现单页和多页数据爬取，掌握动态页面爬取方法，掌握模拟登录，IP代理常用方法，实现高效率、大规模的网络爬取

1) 请求头的构造

2) get请求与post请求

3) 单页和多页数据的爬取

4) 动态页面的数据爬取

5) 模拟登录

6) 代理的基本使用

7) 高效代理池的维护

5. Beautiful Soup和Xpath

目标：通过案例，掌握两种高效的网页信息解析和提取方法，实现网络数据的高效提取

1) Beautiful Soup简介

2) Beautiful Soup的页面解析

3) Beautiful Soup节点选择方法

4) 什么是Xpath

5) Xpath常用匹配规则

6) Xpath的节点选择

6. Selenium和Playwright

目标：通过案例，掌握动态渲染页面的两种自动化的爬虫方法

1) Selenium的安装与配置

2) Selenium的基本使用

3) 页面的访问与节点定位

4) 节点信息的获取

5) Playwright的安装

6) Playwright的编写模式

7) Playwright代码生成

8) Playwright的常用操作方法

7. 验证码的处理

目标：针对验证码反爬虫机制，掌握几种常用验证码识别方法

1) OCR识别验证码

2) 图像匹配识别滑动验证码

3) 深度学习识别滑动验证码

8. Scrapy和分布式爬虫

目标：掌握scrapy爬虫框架和常用方法，理解分布式爬虫原理

1) scrapy框架介绍

2) scrapy入门

3) scrapy的节点选择

4) Spider的用法

5) 分布式爬虫原理

6) 分布式爬虫部署

9. 基于AI辅助的网络爬虫

目标：利用AI辅助爬虫，提高爬虫效率

1) 自动提取信息

2) 适应动态网页

3) 突破反爬机制

文本分析部分

（4月20-21日）

10. 文本分析概述

目标：掌握文本分析的基本概念，文本分析的发展历程，文本分析流程和挑战

1) 文本数据与文本分析

2) 自然语言处理的流派

3) 文本分析的常见应用

4) 文本分析的层次

5) 文本分析的流程

6) 文本分析的挑战

11. 文本单元的提取与标注

目标：掌握文本常用清洗方法，分词原理和方法，词性标注方法

1) 文本清洗

2) 分词

3) 词性标注

12. 文本特征的选取与表示

目标：掌握文本的常用结构化表示方法，利用多种方法实现文本特征提取，理解每种特征提取的优缺点

1) 文本向量化

2) 词袋模型

3) TF-IDF

4) Word2Vec

5) GloVe

6) Doc2vec

13. 关键词提取

目标：掌握三种关键词提取方法

1) TF-IDF

2) Text Rank

3) LDA

14. 文本分析的应用

目标：掌握文本分析的常见应用，和传统的机器学习方法结合，实现文本的分类，聚类，摘要提取，情感分析等功能

1) 文字云

2) 文本分类

3) 文本聚类

4) 文本摘要

5) 情感分析

15. 基于深度学习的文本分析技术

目标：掌握最新的深度学习在文本分析中的应用，包括RNN，LSTM,CNN，注意力，Transformer等模型和机制的引入

1) RNN

2) Bi-LSTM

3) text CNN

4) GRU

5) 注意力机制

6) BERT和Transformer

16. 基于AI辅助的文本分析

目标：AI辅助文本分析，高效提取文本价值

1) 文本摘要

2) 文本翻译

3) 文本分类

4) 文本聚类

5) 情感分析

如果您想要提升自己的研究质量和学术竞争力，请不要犹豫，立即联系我们进行报名。

我们提供持续的学术咨询，确保您在研究过程中始终处于技术前沿。

我们期待在本周六的培训中与您相见，共同开启AI赋能的Python新纪元！

师资培训

Python师资培训系列课程
试听及咨询

尹老师

电话: 13301322952

微信: jg-xs6