之前的两篇文章已经给大家介绍过了 GeoAI地理人工智能 的一些基础知识、应用。
第一部分
第二部分
接下来我们将介绍当下最热门的机器学习深度学习GeoAI方法,今天主要分享的是机器学习篇。
为了让大家可以更系统的学习人工智能(机器学习深度学习),小墨学长还为大家整理了一份60天入门人工智能(机器学习深度学习)的学习路线,从基础到进阶都包含在内,希望可以帮助到大家。
大家可以添加小助手让她把学习路线的思维导图和相关资料一起发给你
本文概览
本文的目的是构建一个工具箱,精选在地理空间领域使用的最基础的机器学习模型和深度学习架构。
我们将从经典的“浅层”学习方法入手,并且每个主题,都会简要介绍该方法,并给出利用特定算法的GeoAI应用场景实例。
本文目录
传统或“浅层”机器学习方法指的是不依赖于具有多个隐藏层的人工神经网络(ANN)的模型。
尽管在深度学习时代,它们受到的关注度有所下降,但传统机器学习方法仍是AI领域的基础。
这些方法通常是特定任务中的最优选择,并且在数据有限或问题相对简单的场景中,其表现可能优于深度学习,避免深度学习在这些场景下的大材小用。
下面是在地理空间数据分析中最重要且广泛使用的部分机器学习方法。
K均值算法
聚类旨在以无监督的方式对数据进行分组,在地理空间数据分析中广泛应用。
它常用于分析数据中的模式并检测异常值。K均值聚类是最常用的聚类算法,其机制是将数据划分为k个簇,使得每个数据点属于距离其均值最近的簇。
该算法首先初始化k个均值(随机或按预定规则),然后将数据点分配给最近的均值,形成k个不同的簇,并计算每个新形成簇的质心,作为新的均值——重复这些步骤,直至收敛。
应用案例:
土地覆盖分类:通过基于光谱相似性对像素进行分组来实现。土地覆盖分类是遥感领域的基本任务之一,也将成为这些方法中大多数的标准应用案例。
区域分析:基于环境、社会经济或自然灾害易发性等因素对区域进行聚类,使用k均值算法和地理空间数据对声学区域进行建模。
城市规划:通过识别城市中的同质区域,如住宅区、商业区等。
K最近邻算法(KNN)
K最近邻分类是一种监督型非参数分类算法,意味着它需要一个标记数据集进行训练,并且不对数据分布做任何假设,它根据数据点的k个最近邻居进行分类。
该算法基于相似点彼此接近的假设,这与地理学的第一定律完美契合:
“Everything is related to everything else, but near things are more related to each other.”
“万物皆相关,但近者更相关。”——沃尔多·托布勒。
这正是KNN在地理空间分析中简单却强大的原因。
应用案例:
对遥感影像进行土地覆盖分类。
通过插值进行地理空间缺失值估算。
决策树(DT)
决策树是另一种非参数监督学习方法,可用于分类和回归。它们根据特征值将数据拆分为子集以做出分类或回归决策。
在地理空间分析中,可以根据手头的数据和任务以任意方式使用它们。
应用案例:
随机森林(RF)
随机森林在地理空间应用中主要用作分类算法,但同样适用于回归任务。
它是一种监督集成学习方法,使用多个决策树通过多数投票(分类)或平均预测值(回归)来做出决策。
随机森林基于装袋(Bagging)概念,也称为自助聚合。
该算法从训练集中有放回地随机抽样生成多个数据和特征子集,并在这些样本上训练独立的决策树,从而创建一个不相关的决策树森林。
集成学习是机器学习的一个重要分支,它包括装袋(Bagging)和提升(Boosting)等概念,但随机森林特定于装袋方法。
应用案例:
土地覆盖分类,许多资源和科学文章使用RF进行土地覆盖分类。
灾害易发性制图,一个例子是滑坡易发性制图,使用RF结合滑坡影响因素数据和历史滑坡记录创建特别容易发生此类事件的区域地图。
土壤属性建模,RF模型基于土地利用、地貌、坡度图、该地区的数字高程模型(DEM)以及从遥感数据中提取的光谱指数等多种环境因素进行训练。
支持向量机(SVM)
支持向量机是地理空间领域常用的另一种强大分类器,SVM背后的思想是找到将数据最佳分离为不同类别的超平面。
使SVM如此强大的原因是使用称为核的数学函数将数据映射到更高维的特征空间,合适的核可以使数据在映射维度上线性可分。
在地理空间分析中的分类任务中,支持向量机(SVM)和随机森林(RF)被视为最先进的方法。
应用场景:
随着精确且丰富的数据量不断增加,尤其是在遥感领域,有必要考虑维度灾难问题。
降维技术的目的是通过将数据映射到低维空间,通常将原始特征转换为新特征,从而降低高维数据集的复杂性。
在遥感领域,尤其是包含数百个光谱波段的高光谱图像中,降维有助于解决处理所有波段所面临的计算挑战。
降维方法多种多样,其中在地理空间领域应用最广泛的有:
在探索GeoAI领域的深度学习方法之前,我们先来了解下基础构建模块。
这些模型通常被归类为“浅层”机器学习,是理解现代“深层”方法不可或缺的部分。
虽然它们作为独立应用的重要性已不如从前,但在深度学习的背景下仍然至关重要,为更高级的架构和方法奠定了基础。
感知机
感知机通常被称为人工神经网络的最简单形式,是一种线性二分类器。
它由Frank
Rosenblatt于20世纪50年代提出,奠定了人工神经网络这一机器学习领域的基础。
它包含输入值、权重和偏置,使用输入、权重和偏置进行线性变换,以及一个单位阶跃激活函数来输出结果。
单层人工神经网络
单层人工神经网络是感知机概念的自然延伸——你可以将感知机视为单层人工神经网络的一个特例。
区别在于激活函数的选择更加灵活(可以是sigmoid、ReLU或softmax)。
这种简单架构是所有深度学习架构的基本构建块,通过连接人工神经网络的层来构建复杂模型。
所以理解单层简单人工神经网络的工作原理至关重要!
另外我们打磨了一套基于数据与模型方法的 AI科研入门学习方案(已经迭代过5次),对于ai来说,任何专业,要处理的都只是实验数据,所以我们根据实验数据将课程分为了三种方向的针对性课程,包含时序、图结构、影像三大实验室,我们会根据你的数据类型来帮助你选择合适的实验室,根据规划好的路线学习 只需 5 个月左右(很多同学通过学习已经发表了 sci 二区及以下、ei会议等级别论文)如果需要发高区也有其他形式。
大家感兴趣可以直接添加小助手微信:ai0808q 通过后回复咨询既可!
大家觉得这篇文章有帮助的话记得分享给你的死党、闺蜜、同学、朋友、老师、敌蜜!