来源:https://www.zhihu.com/question/638660013
作者:小满哥
个人名单,排名不分先后:
1、AlexNet (深度学习复兴的源头)
2、GAN(左右互博的思想到现在依然很惊艳)
3、Attention (提出注意力机制并应用于NLP)
4、ResNet (残差思想简洁有效,广泛应用于深度学习各个领域,毋庸置疑的top10)
5、UNet (对称编解码器架构,泛化性能很好,广泛应用于医疗遥感以及AIGC领域)BatchNormalization (有效加快模型收敛并防止过拟合)
6、YOLO系列 (端到端目标检测模型,简洁优雅高效,落地最广泛的目标检测模型)Transformer (同样毋庸置疑,大模型基石)
7、GPT系列 (基于Transformer解码器的大语言模型,掀起LLM浪潮的领航员)
8、StableDiffusion (图像生成里程碑,与LLM并列的AIGC模型)
以上是个人排名,仅限于本人涉足的领域,存在一定主观性,很难达到全面客观的标准。还有很多非常好的算法也可排进特定领域top10,候选名单:VGG,Seq2seq,Faster-RCNN,Mask RCNN,Bert,ViT,Swin Transformer,DALLE,CLIP,GCN,GAT,RoPE等,这些都是非常经典的算法,经过了后续研究实践的考验。
还有一些很有创新性,有希望进入特定领域top10候选的作品,例如:DiT, RWKV,Mamba,LORA等
作者:theigrams
实际效果不一定是最好的,但背后的理论肯定是优美而深刻的,以下是我喜欢的 Top10:
Word2vec
第一次接触机器学习时,看到书中的例子「中国-北京 = 法国-巴黎」,感觉整个人的认知都被颠覆了,从此踏进了机器学习的深坑。
Variational Autoencoder (VAE)
变分推断与自编码器的完美融合,与传统自编码器相比,通过随机采样的方式强迫特征网络学到的编码具备局部空间结构,这种范式对整个生成模型领域产生了深远的影响。
Generative Adversarial Network (GAN)
超脱于传统 Encoder-Decoder 结构,走出了一条全新的路,将 min-max 优化问题转化为生成器网络和判别器网络的对抗学习过程。
Graph Convolutional Network (GCN)
这里指的是广义的图卷积网络,一共包括 Spectral Networks and Locally Connected Networks on Graphs,Convolutional Neural Networks on Graphs with Fast Localized Spectral Filtering,Semi-Supervised Classification with Graph Convolutional Networks 三篇论文。
Spectral CNN 是开山之作,基于谱图理论首次将卷积推广到了图网络。
Chebyshev Spectral CNN 用拉普拉斯矩阵的Chebyshev多项式来代替滤波函数,极大减少了计算量。GCN 则是集大成者,继续做减法,最终将图卷积浓缩成一个矩阵,优美到了极致。
可惜自此之后的 GNN 再无图卷积,只剩消息传递。
PointNet
用神经网络处理点云的开山之作,解决了点云数据的无序性和不规则性,从此三维视觉进入深度学习时代。
Neural Radiance Field (NeRF)
用神经网络学习空间中每一点的光场,然后用体渲染积分成图像,简直是暴力美学。虽说三维视觉领域又多了个新方向,但搞这个掉头发很快。
Deep Q-Network (DQN)
毋庸置疑的经典,将 Q-learning 的天赋带到深度学习,产生了很好的化学反应,强得不可思议。
AlphaGo
蒙特卡洛树搜索+深度学习,击败柯洁算得上是 AI 领域的历史性时刻。
Proximal Policy Optimization (PPO)Schulman
在 TRPO 中引入了信赖域来缓解学习不稳定的问题,但是计算开销太大,于是他又将其简化成了 PPO,显然他觉得这种改进工作贡献不大,甚至都没投论文,就挂在Arxiv上。没想到的是 PPO 太好用了,简单稳定高效,搞应用的人手一个,甚至 ChatGPT 也用的 PPO。
Neural Tangent Kernel (NTK)
解释了神经网络(在无限宽的情况下)的训练为什么能稳定收敛,为什么收敛性与网络的初始化无关,而与网络的结构有关。
作者:兵临城下
0 AlexNet: 我觉得是卷积神经网络最具代表的工作;
1 ResNet: 至少不比之前差;
2 Transformer: Attention is all your need;
3 GAN:用模型打败模型;
4 LSTM:时间序列最广泛典型的网络,三个门的设计;
5 GPT: Decoder-Only,第一个大模型时代标志性网络;
6 BERT:Encoder-Only,你的模型会做阅读理解吗?
7 Diffusion:开启了文生图的时代;
8 YOLO: You Only Look Once;
9 DiT: 最开始放的gemini,但是最近被DiT的算法惊艳到了,Transformer作为Block代替之前的U-Net,解决了困扰了我很久的问题,就是生成式模型选用transformer还是diffusion系列,scale和Shift又可以保证视频生成的扩散,目前看到的算法里好像是降龙十八掌的最后一招了;
有很多精巧的想法如LoRA, FastSpeech, FastText, Word2Vec, RLHF,甚至于VGG, VAE,U-Net这类典型网络本应该出现在前十,但排名带有一些主观色彩,期待未来五年能够让我这个主观色彩的榜单全部更换。
来源:计算机视觉工坊
本文仅做学术分享,如有侵权,请联系删文。