视觉、深度学习相关论文分享
φ(..)
- Attention Is All You Need|2017
- An image is worth 16 x 16 words:transformers for image recognition at scale|2021|ICLR
- Masked Autoencoders Are Scalable Vision Learners|2022|CVPR
更新:对于第一篇paper,你可能需要清楚什么是
Attention
,encoder-decoder
,以及一些深度学习的基础知识。这样你会更快了解什么是transformer
第二篇,你可能需要清楚什么是patch
,CNN
,以及一些CV的基础知识,他的成果基于transformer
,所以也请大致知道transformer
是什么。这样你会更快了解什么是VIT
第三篇,你看到了VIT
的无限潜力,在Self-Supervised Learning
后,对于像素这样级别很低的输出依然有惊人的表现,这得益于它的非对称encoder-decoder
,或许图片里的信息真的太冗余了呢?
- Title: 视觉、深度学习相关论文分享
- Author: M1aoo0bin
- Created at : 2024-04-11 00:27:22
- Updated at : 2024-06-24 01:26:49
- Link: https://redefine.ohevan.com/2024/04/11/AI-2.0-01/
- License: This work is licensed under CC BY-NC-SA 4.0.