视觉、深度学习相关论文分享

视觉、深度学习相关论文分享

M1aoo0bin

φ(..)

  1. Attention Is All You Need|2017
  2. An image is worth 16 x 16 words:transformers for image recognition at scale|2021|ICLR
  3. Masked Autoencoders Are Scalable Vision Learners|2022|CVPR

更新:对于第一篇paper,你可能需要清楚什么是Attention,encoder-decoder,以及一些深度学习的基础知识。这样你会更快了解什么是transformer
第二篇,你可能需要清楚什么是patch,CNN,以及一些CV的基础知识,他的成果基于transformer,所以也请大致知道transformer是什么。这样你会更快了解什么是VIT
第三篇,你看到了VIT的无限潜力,在Self-Supervised Learning后,对于像素这样级别很低的输出依然有惊人的表现,这得益于它的非对称encoder-decoder,或许图片里的信息真的太冗余了呢?

  • Title: 视觉、深度学习相关论文分享
  • Author: M1aoo0bin
  • Created at : 2024-04-11 00:27:22
  • Updated at : 2024-06-24 01:26:49
  • Link: https://redefine.ohevan.com/2024/04/11/AI-2.0-01/
  • License: This work is licensed under CC BY-NC-SA 4.0.
On this page
视觉、深度学习相关论文分享