社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  Git

8 月份 Github 上最火的10篇 AI 论文!

kaggle竞赛宝典 • 2 年前 • 274 次点击  
↑↑↑关注后"星标"kaggle竞赛宝典
  kaggle竞赛宝典  
作者:天于刀刀,文章摘自夕小遥的

8 月份 Github 上最火的10篇 AI 论文!

简介

不晓得各位同学在看论文的时候最关注的是什么?也许是论文的创新点,或是被引用的数量,还是...是不是自带代码!

重要的事说三遍!复现,复现,还是复现!(ーー゛)

为了方便各位同学愉快地在学习的海洋中遨游,Reddit 上的一位老哥整理了2022年8月 Github 上最热门的 AI 项目 [1],感谢 bycloudai 的贡献。

以下所有项目排名均基于 Github Stars,它们分别是:

  1. 文字生成图片,但是个性化
  2. 预训练语言图像模型在视频识别中的应用
  3. 扩散生成模型的原理是?
  4. int8 加速大语言模型推理,性能无损!
  5. 低资源下使用分散式数据蒸馏进行联邦学习
  6. PeRFception:感知任务大规模隐式数据集
  7. 用图像来训练视频分割模型,MinVIS 减少了标注和内存成本
  8. SawSing:一种歌声合成声码器模型
  9. 机器人的公园漫步
  10. LCCDE:自动驾驶系统中的网络安全守护者

01 文字生成图片,但是个性化

作者基于潜在扩散模型(Latent Diffusion Models, LDM),允许用户使用自然语言指导 AI 生成包含特定独特概念的图像。

例如我想将心爱的宠物猫咪变成一幅独特的画作——抽象派猫猫,只需要提供3-5张照片,然后通过控制自然语言输入,来得到一个我家猫咪的抽象画作。

简单介绍下过程:首先,模型会通过学习这些图片,使用一些单词去表示图片。其次,这些单词可以组合成自然语言句子,通过 prompt 形式指导模型进行个性化创作。

好处在于,图像的自然语言表示对用户非常友好。用户可以自由修改 prompt 内容以获取他们想要的风格、主题和独一无二的结果。

项目地址:
https://github.com/rinongal/textual_inversion
论文地址:
https://arxiv.org/abs/2208.01618

02 预训练语言图像模型在视频识别中的应用

微软大佬的项目。在这项工作中,作者通过将预训练的语言图像模型(pretrained language-image models)调整为视频识别,以此将对比语言图像预训练方法(contrastive language-image pretraining)扩展到视频领域。

作者为了捕捉视频中帧沿时间维度的远程依赖性,提出了一个跨帧的注意力机制,明确了跨帧的信息交换。此外该模块非常轻量化,可以无缝插入预训练的语言图像模型。

项目地址:
https://github.com/microsoft/videox
论文地址:
https://arxiv.org/abs/2208.02816

03 扩散生成模型的原理是?

标准的扩散模型(diffusion models)涉及到图像变换(添加高斯噪声)和图像反转。但是作者观察到,扩散模型的生成并不强烈依赖于图像降解的选择。

在这个项目中,作者通过实验证明了基于完全确定性的降解(例如模糊、masking 等),也可以轻松训练一个扩散生成模型。

这个工作成功地质疑了社区对扩散模型的理解:它并非依赖于梯度郎之万动力学(gradient Langevin dynamics)或变分推理(variational inference)。

项目地址:
https://github.com/arpitbansal297/cold-diffusion-models
论文地址:
https://arxiv.org/abs/2208.09392

04 int8 加速大语言模型推理,性能无损!

标题说明一切。

该项目主要聚焦于大语言模型(LLM)的量化过程,开发了一个用于前馈和注意力投射层的 int8 矩阵乘法程序,减少了一半的内存,并且保持了完全的精度性能。

这使得大模型更加亲民,例如现在我们可以在消费级显卡上使用 OPT-175B/BLOOM 模型。(显卡禁令福音)

项目地址:
https://github.com/TimDettmers/bitsandbytes
论文地址:
https://arxiv.org/abs/2208.07339

05 低资源下使用分散式数据蒸馏进行联邦学习

数据集蒸馏(dataset distillation)是通过合成小型数据集,以便其训练的模型可以在原始大数据集上实现高性能的任务。

一个好的小数据集不仅对理解数据有作用,而且可以辅助持续学习(continual learning)、隐私、神经网络搜索等。

这个项目梳理了非常详细的数据集蒸馏技术的发展脉络,以及在隐私、联邦学习、持续学习、模型压缩、知识蒸馏等等领域的应用论文。感兴趣的同学可以从此入手。

项目地址:
https://github.com/Guang000/Awesome-Dataset-Distillation
论文地址:
https://arxiv.org/abs/2208.11311

06 PeRFception:感知任务大规模隐式数据集

最近神经辐射场(Neural Radiance Fields, NeRF)在隐式 3D 表示中实现了一种准确又逼真且可微的方式。这种新的表示可以以一种紧凑的格式,有效传达数百张高分辨率图像的信息。

作者建立了第一个用于感知任务的大规模隐式表示数据集(PeRFception),并且提出一种新的增强技术,以避免过拟合图像背景。

项目地址:
https://github.com/POSTECH-CVLab/PeRFception
论文地址:
https://arxiv.org/abs/2208.11537

07 用图像来训练视频分割模型,MinVIS 减少了标注和内存成本

前几年,字节跳动的大佬在视频识别的领域中开辟了新的任务:视频实例分割(Video Instance Segmentation, VIS),就是把视频帧的每一个实例分割出来。

有别于传统的基于视频的训练架构,MinVIS 将视频中的帧视为独立图像,然后通过对应查询的二分匹配来跟踪实例。

因此 MinVIS 在实验中取得了降低标注成本和内存要求的实际优势,同时没有牺牲 VIS 的性能。

项目地址:
https://github.com/nvlabs/minvis
论文地址:
https://arxiv.org/abs/2208.02245

小贴士[2]:在视频领域中还有一个视频目标分割任务(Video Object Segmentation, VOS)。它和 VIS 任务的主要区别在于,VOS是会在第一帧中给出需要 track&segment 的 object 的 mask 的,但是这些 object 是 class-agnostic 的,任务目标是在接下来的视频中 track&segment 出第一帧中的标注 objects。VIS任务是有一个已知的 class set,你需要在 video 中把属于这些 class 的 instance 都给detect 出来并在整个视频中 track&segment 出来。

08 SawSing:一种歌声合成声码器模型

声码器是一种条件音频生成模型,他将梅尔频谱(mel-spectrogram)等声学特征转换为波形。

受到可微数字信号处理(differentiable digital signal processing)的启发,SawSing 可以生成连续的歌声,而不会像许多现有编码器那样出现不连续的故障。

此外,实验证明 SawSing 支持在少量数据上训练,并且可以在资源受限的情况下更快地收敛。

项目地址:
https://github.com/yatingmusic/ddsp-singing-vocoders
论文地址:
https://arxiv.org/abs/2208.04756

09 机器人的公园漫步

并非是在实验室的模拟环境,而是在真实的室内外地形中,作者采用强化学习和机器人控制器相结合的方法,在短短20分钟内成功让机器人学会四足行走。

(听上去有点像教狗狗学走路?)

项目地址:
https://github.com/ikostrikov/walk_in_the_park
论文地址:
https://arxiv.org/abs/2208.07860

10 LCCDE:自动驾驶系统中的网络安全守护者

自动驾驶和物联网是最近非常火热的领域,然而随着车辆互联网(Internet of Vehicles, IoV)的日益增长,对于网络安全的保护也越来越重要。

作者提出了一个识别恶意网络攻击的入侵检测系统,基于 XGBoost、LightGBM 和 CatBoost 来构建的。

项目地址:
https://github.com/Western-OC2-Lab/Intrusion-Detection-System-Using-Machine-Learning
论文地址:
https://arxiv.org/abs/2208.03399 

[1] Most Popular AI Research Aug 2022 pt.2 - Ranked Baed On Github Stars, https://www.reddit.com/r/learnmachinelearning/comments/x48r9g/most_popular_ai_research_aug_2022_pt_2_ranked/

[2] Video Instance Segmentation 阅读,https://zhuanlan.zhihu.com/p/78096960


Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/147043
 
274 次点击