由于爬虫涉及较多网络专用术语,而小咖也仅是单纯一金融民工,因此这里就直接将网络上对于这些关键术语的定义展示给大家,如果感兴趣大家可以自行深度学习,而小咖的Python系列将主要专注于各类python工具的金融应用。
爬虫:是一个可以自动化抓取网页、app内容的工具。其中,我们将讲到的是目前应用最广泛的搜索引擎网络蜘蛛,在python中录入网址既可以获取网页数据。
URL:是统一资源定位符,对可以从互联网上得到的资源的位置和访问方法的一种简洁的表示,是互联网上标准资源的地址。互联网上的每个文件都有一个唯一的URL,它包含的信息指出文件的位置以及浏览器应该怎么处理它。URL的格式由三部分组成:
(1)第一部分是协议:http/https/ftp/ws等等。
(2)第二部分是存有该资源的主机IP地址(有时也包括端口号),简单说就是网站的域名。
(3)第三部分是主机资源的具体地址,如目录和文件名:即网站的二级目录和信息列表页、资源页等等。
Requests库:requests实现了HTTP协议中绝大部分功能,它提供的功能包括Keep-Alive、连接池、Cookie持久化、内容自动解压、HTTP代理、SSL认证、连接超时、Session等很多特性,最重要的是它同时兼容python2和python3。安装方法:
pip install requests
F12:
在网页界面点击F12后会出现开发者工具,我们可以通过F12找到所需数据及其节点。主要模块为:
Elements:可以查看当前文档的DOM信息
Console:查看调试,也可直接写JS代码
Source:查看当前资源文件的(CSS,JS,IMAGE)
Network:查看网络请求