在人工智能领域,大语言模型(Large Language Models,LLM)特指那些具有大量参数、需要巨大计算资源来训练和运行的深度学习模型。
近年来,随着计算能力的提升和数据可获取性的增加,大模型已经成为人工智能研究和应用的一个重要趋势。
这些模型在处理复杂任务时,尤其是在自然语言处理(NLP)、计算机视觉、语音识别等领域,展现出非凡的能力。
大数据时代为训练复杂模型提供了充足的“燃料”——从互联网中收集的文本、图片和视频数据量巨大,为训练数据密集型的大模型提供了可能。
而时间序列分析作为数据科学的一个重要分支,其重要性在各行业中愈发凸显。
目前,时间序列分析已经广泛应用于各行各业,从金融市场的预测、工业生产的优化,到医疗健康的监测和智能运维的支持。
金融市场的时间序列举例:标普 500 指数和 VIX 指数近 10 年的表现
时间序列数据是许多行业中常见的数据类型,它记录了随时间变化的数据点。
从股市的股价到医疗健康中的病人体征,再到零售行业的销售量,时间序列数据无处不在。
各行各业的企业都需要通过过往的时间序列数据来预测未来,以适应其业务增长。
随着数据通信成本的显著降低,各种传感器技术和智能设备不断产生大量的时间序列数据(也称为时序数据),并将其发送至云端。
这些庞大的数据资源对于社会和企业来说具有巨大价值,它们可以帮助企业实时监控业务或设备的运行状况,生成各种维度的报告。
同时,通过大数据分析和机器学习技术,可以对业务进行预测和预警,从而协助社会和企业进行科学决策、降低成本并创造新的价值。
当今时代,数据无处不在,而时间序列数据更是其中的佼佼者。
我们在互联网、经济、金融、气象等诸多领域都能见到时间序列数据的身影。
有效分析这些随时间变化的数据样本以提炼有价值的信息,不仅有助于企业和机构的决策优化,而且对科学研究和技术创新具有重要意义。
比如,你是一家超市的经理,已经获得了数百种产品的每日销售历史数据,需要寻找一种时间序列预测算法来预测未来几周的销售情况。
再比如,你是一位运维工程师,想要知道当前的业务运转是否正常,在未来的一段时间内是否会出现问题。
又比如,你是互联网出行公司的市场部经理,需要预测用户需求,在各个区域订单需求增加前将司机引导至这些区域,实现科学地调度资源,增加营收。
除此之外,随着目前金融科技和人工智能的火热,全球金融市场的金融时间序列(如黄金价格、股票、期货等)也应用以深度学习(DL)为首的现代人工智能模型不断进行分析和预测。
越来越多的专业和非专业公司,以及一些主要金融机构(银行、基金、人工智能、金融科技公司等)正在部署或试验 AI 模型和算法来预测这些真实世界中的时间序列。
然而,传统的时间序列分析技术(如 ARIMA 或季节性分解),虽然在许多情况下有效,但在处理大规模数据集或需要捕捉复杂非线性模式的场景中显得力不从心。
将时间序列的分析与预测用于大规模的数据生产一直存在诸多困难。
在这种背景下,结合机器学习,特别是深度学习技术的时间序列分析方法,成了研究和应用的热点。
因此,如何将机器学习、深度学习或者大模型技术应用在大规模的数据生产中,是一个非常关键的问题。
国内外已出版了许多关于机器学习和时间序列分析的书籍,它们各自都支撑起一个庞大的学科,作者们希望能够借助自身的经验和专业知识,对这一领域进行系统的梳理和总结。然而,将时间序列分析与机器学习技术相结合的书籍却并不多见。
以上正是《时间序列与机器学习》这本“荔枝书”的写作背景。
本书以数学理论为基础、以业务场景为应用,将理论基础与实践案例相结合,作者凭借扎实的数学功底及其在企业界的丰富实践经验,将机器学习与时间序列分析巧妙融合在书中。
全书书共分为8章,系统介绍时间序列的基础知识、常用预测方法、异常检测算法,以及时间序列数据的相似性度量和聚类算法等。
书中不仅讨论了单维和多维时间序列的处理技术,还特别强调了时间序列在智能运维(AIOps)和金融领域的实际应用。
第1章“时间序列概述”:介绍时间序列分析的基础知识、发展历程、应用现状、分类及其与其他领域(如自然语言处理、计算机视觉等)的关联。
第2章“时间序列的信息提取”:介绍特征工程的核心概念及其在时间序列分析中的应用,比如对原始数据进行归一化、缺失值填充等转换;以及如何通过特征工程从时间序列数据中提取有用的特征,例如时间序列的统计特征、熵特征和降维特征等,以及如何判断时间序列的单调性。
第3章“时间序列预测”:介绍常用的时间序列预测方法,包括自回归模型、移动平均模型、自回归差分移动平均模型、指数平滑方法、Prophet,以及神经网络,例如循环神经网络、长短期记忆网络、Transformer、Informer 等。
第4章“时间序列异常检测”:介绍时间序列异常检测算法的技术与框架,如何识别异常的时间点,包括基于概率密度的方法(如3-Sigma、核密度估计)、基于重构的方法(如变分自编码器、Donut)、基于距离的方法(如孤立森林、RRCF)、基于有监督的方法和基于弱监督的方法等。
第5章“时间序列的相似度与聚类”:介绍时间序列的相似性度量方法,如欧氏距离、动态时间规整算法等,用于衡量两个或多个时间序列在形状和模式上的相似程度;聚类算法,如K-Means、DBSCAN等,可以将相似的时间序列分组,以便进一步理解时间序列数据中的结构和模式。
第6章“多维时间序列”:介绍多维时间序列在广告分析和业务运维领域的应用,包括如何利用OLAP 技术对多维时间序列进行有效处理,以及如何通过根因分析技术获得导致故障的维度和元素,包括基于时间序列异常检测算法的根因分析、基于熵的根因分析、基于树模型的根因分析、规则学习等。
第7章“智能运维的应用场景”:介绍智能运维领域的应用,包括指标监控、容量预估、弹性伸缩、告警关联、告警收敛和告警系统评估等,以及监控中出现的节假日效应、持续异常等实际情况。
第8章“金融领域的应用场景”:介绍量化交易的概念、发展历程,如何通过因子挖掘从时间序列数据中提取特征并将其转化为交易策略,以及机器学习在其他金融领域(包括资产定价、资产配置、波动率预测)的应用。
本书的两位作者在时间序列领域具有丰富的从业经验。
针对工业界的相关从业者,本书将为你提供实用的工具和技术,以帮助你更好地处理时间序列数据。你将学习到如何使用不同的模型和算法来预测未来、检测异常、进行聚类等。本书中包含大量的示例和案例研究,可以让你快速地掌握这些技术,并将其应用到你的工作中。
针对学术界的相关从业者,本书将为你介绍相关的业务背景和常规问题,有助于你从学术界的角度进一步地理解工业界的问题,通过问题来推动理论研究的发展。
如果你也想了解系统了解时间序列与机器学习的相关知识,那就来看看这本“荔枝书”吧!
学习《时间序列与机器学习》(全彩印刷)就看“荔枝书”!👇
↑限时五折优惠↑
限时五折优惠,快快抢购吧!
发布:刘恩惠
审核:陈歆懿
🏴☠️宝藏级🏴☠️ 原创公众号『数据STUDIO』内容超级硬核。公众号以Python为核心语言,垂直于数据科学领域,包括可戳👉 Python|MySQL|数据分析|数据可视化
|机器学习与数据挖掘|爬虫 等,从入门到进阶!
长按👇关注- 数据STUDIO -设为星标,干货速递