本文约2200字,建议阅读7分钟
“人”如何做好“人”擅长的事情,把剩下的交给机器。

[ 导语 ]机器学习从20世纪80年代开始引领人工智能的发展潮流,其对人工智能的重要贡献在于从人工赋予机器智能转移到机器自行习得智能。毫无疑问,学习和求解问题的能力是智能的集中体现,机器如何模拟人的这一能力?实践证明了以大脑级别得大规模并行架构为基础得算法比逻辑规则为基础的算法更实用。“人”如何做好“人”擅长的事情,把剩下的交给机器。从强算法到强算力,再到强数据,机器不断在延伸和拓展人的能力边界。
在机器学习中,特征(Feature) 是指用来描述数据对象的独立可量化的属性。一个特征不足以代表一个物体,所以机器学习中使用特征的组合--特征向量。

深度学习可以通过其自动学习数据中的复杂特征来替代传统的特征工程,减少人工干预的需要。具体来说,深度学习的模型(特别是深度神经网络)能够从原始数据中自动提取层次化的特征,而无需依赖手动设计的特征。

端到端学习:即从原始数据到最终输出的过程可以完全由神经网络自动学习。尽管深度学习成为机器学习的主流,但在数据不足或可解释性要求较高的场景下,传统的特征工程方法仍然有其价值。
限制:


- 模型:数据抽象出来的数学描述;好的模型不仅取决于算法和数据,还取决于任务需求。
算法:具体实施方法,如数学问题如何最优化解?
对训练完成的模型进行性能分析和测试的过程,以确定模型在新数据上的表现。因此,数据通常会被分为训练集、验证集和测试集。
(1)训练集、验证集和测试集

偏差-方差窘境(Bias-variance dilemma):模型训练不足时,模型拟合能力不强,偏差主导,随着训练加深,模型拟合程度增强,方差逐渐主导。
(2)查准率VS.查全率




不妨看看如果把池子里的所有的鲤鱼、虾和鳖都一网打尽,这些指标又有何变化:由此可见,正确率是评估捕获的成果中目标成果所占的比例;召回率,就是从关注领域中,召回目标类别的比例;
- 而F值,则是综合这二者指标的评估指标,用于综合反映整体的指标。

机器学习中的优化问题大多数可以归结为最小化问题,即寻找最小化损失函数的参数。

1. 参数优化问题
线性回归:最小化均方误差(MSE)损失函数,找到最优的回归系数。逻辑回归:最小化交叉熵损失函数,以找到最优的分类参数。
2. 正则化优化问题
为了防止过拟合,我们通常会在目标函数中加入正则化项。例如:
这些正则化项会增加优化问题的复杂度,目的是找到一个既能拟合数据又不容易过拟合的解。
3. 神经网络优化问题
神经网络的训练也是一个优化问题,通常通过反向传播算法来优化神经网络的权重和偏置。训练神经网络时:
神经网络的优化问题往往具有多个局部最小值或鞍点,因此它比传统的线性模型更复杂。
4. 支持向量机(SVM)优化问题
SVM 的目标是最大化分类边界的间隔,超平面将两类数据点分开,同时最小化分类误差。优化问题包括:
优化算法:


数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。

新浪微博:@数据派THU
微信视频号:数据派THU
今日头条:数据派THU