这份文档初撰于2021年,时间有限,稍微做了一点修改,确实存在很多不足,还请各位轻喷。站在当前大语言模型(LLM)与多模态大模型(LMM)席卷全球的风口浪尖,回看当年的路径,在研究范式上确实略显传统。然而,对于身处普通重点院校、且不具备庞大算力资源支持大模型训练的师生而言,深耕计算机视觉(CV)的底层逻辑依然是通往AI殿堂的必经之路。
作为一名在学术界与工业界(华为)磨砺多年,并在三峡大学指导研究生近五年的硕士生导师,我希望这份建议能为迷茫中的学术新人拨开云雾。以下是我对大家在研究生起步阶段的几点核心建议:
一、 夯实基石:三个月的“冷板凳”期
深度学习的入门不能仅停留在“调库”层面。虽然现在cursor等工具能够很好的辅助编程,但是我觉得自己掌握一定的编程基础还是很有必要的。对于大多数刚入学的同学,我建议预留3个月的完整周期进行基础建设:
编程与框架(工程能力): 熟练掌握 Python 是基本功。如果时间紧迫,至少要完成“面向对象编程”章节的学习。随后应直奔 PyTorch 框架,通过复现图像分类、风格迁移等经典模型,建立起从模型搭建、损失函数设计到训练推理的闭环认知。
理论内功(思维深度): 吴恩达(Andrew Ng)等机器学习和深度学习的课程是业界公认的经典。你可以将其作为长期的“案头书”反复咀嚼,三个月肯定学不完。基础不牢,地动山摇,只有理解了反向传播、梯度优化等背后的数学逻辑,才能在后续的创新中游刃有余。
二、 领域探索:从广度阅读到深度精读
在度过入门期后,你将步入科研的“痛并快乐”阶段。此时,可以在目标检测、语义分割或图像处理(如去雾、超分等)等经典视觉领域中择一而入。
纵深研判: 在锁定最终方向后,请在近3-5 年的视觉顶会(CVPR, ICCV, ECCV)及顶刊(TPAMI, TIP, IJCV)中,精准筛选 10-20 篇 高质量论文。
精读与复现: 阅读论文,切记要做到“论文与代码双向互证”。不仅要结合代码来阅读论文,更要弄懂每一个公式背后的物理意义与数学逻辑。
循环迭代: 这一步至关重要。在读完这 20 篇论文后,请带着批判性思维回过头再读一遍。去发现现有方法的科学问题和局限性:是某某框架约束能力不足?还是特征表达能力、判别性受限?千万不要把小目标、精度不高等实验呈现出来的挑战和结果,当成了科学问题。
三、 科学研究的核心:以“问题”为导向
科研的本质是发现并解决有价值的问题。 找到一个好的科学问题,你的论文就成功了一半。
跨界启发: 解决问题的方法往往不在问题本身,而在“他山之石”。你需要广泛涉猎其他细分领域(如 NLP 领域、生成模型等)的最新进展。
重组而非堆砌: 创新的关键在于将他人的理论精华进行启发式的改进与迁移,而非简单的模块拼凑。
交流共振: 交流是新 Idea 的温床。学生应保持与导师、同门的深度碰撞。导师的职责不仅是方向把控,更是你思维风暴的参与者。
后半部分,我为大家整理了一些入门资料、顶尖学术期刊会议列表、论文/代码检索门户以及高效的科研辅助工具(如 LaTeX 写作、文献管理等)。愿大家在三年的研学时光里,既能仰望星空、产出高水平成果,亦能脚踏实地、收获一份通往未来的理想职业。学术之路,我们共同砥砺前行!
*深度学习入门学习1-3(建议学习时间3个月左右)
1. python学习、Linux、Anaconda
书籍:Python语言程序设计基础(作者嵩天)
视频:https://www.bilibili.com/video/BV1wD4y1o7AS?p=1
Linux和Anaconda需要花3-5天时间了解最基本的命令后,主要是在后面实际代码过程中,逐步的边用边学。
2. 深度学习原理学习
视频:https://www.bilibili.com/video/BV1FT4y1E74V?from=search&seid=4178480070410490063&spm_id_from=333.337.0.0
3. 深度学习编程框架pytorch
推荐书:深度学习框架PyTorch:入门与实践(作者陈云)
视频:https://www.bilibili.com/video/BV1hE411t7RN?p=1
https://github.com/kzbkzb/Python-AI?tab=readme-ov-file
https://www.bilibili.com/video/BV1rVpWz3EDW/?share_source=copy_web&vd_source=42a7cf35e013357d9fec79584903b098
*科研论文入门及可做方向。
1. 目标检测和分割(推荐论文已经过时,但是拿来入门也行)
SSD和Yolo是一阶段检测网络,Faster R-CNN/Mask R-CNN是二阶段检测网络。
(1) SSD
paper:https://arxiv.org/abs/1512.02325v5
代码:https://github.com/amdegroot/ssd.pytorch
(2) Yolo系列,这里给出V1版本论文,懂了SSD看Yolo论文不难,可以继续看yolo系列的论文和代码。
paper: https://arxiv.org/pdf/1506.02640v5.pdf
代码:https://github.com/AlexeyAB/darknet
(3) Faster R-CNN/Mask R-CNN(Mask R-CNN主要是在 Faster R-CNN上加入了分割分支)
paper: https://arxiv.org/pdf/1506.01497v3.pdf,https://arxiv.org/abs/1703.06870
代码:https://github.com/facebookresearch/detectron
入门后,可以选择深入做的方向:
·图像目标检测(Image Object Detection)
·视频目标检测(Video Object Detection)
·三维目标检测(3D Object Detection)
·人物交互检测(HOI Detection)
·伪装目标检测(Camouflaged Object Detection)
·旋转目标检测(Rotation Object Detection)
·显著性目标检测(Saliency Object Detection)
·3图像异常检测(Anomally Detection in Image))
·关键点检测(Keypoint Detection)
·图像分割(Image Segmentation)
·全景分割(Panoptic Segmentation)
·语义分割(Semantic Segmentation)
·实例分割(Instance Segmentation)
·超像素(Superpixel)
·视频目标分割(Video Object Segmentation)
·抠图(Matting)
·密集预测(Dense Prediction)
2. 图像处理(推荐论文已经过时,但是拿来入门也行)
(1) FFA-Net 图像去雾论文
Paper:https://arxiv.org/pdf/1911.07559v2.pdf
代码:https://github.com/zhilin007/FFA-Net
(2) 对比学习图像去雾
Paper:https://arxiv.org/abs/2104.09367
代码:https://link.zhihu.com/?target=https%3A//github.com/GlassyWu/AECR-Net
(3) U-Net,图像生成、分割的基础网络
博客:https://cuijiahua.com/blog/2020/03/dl-16.html
博客:https://zhuanlan.zhihu.com/p/313283141
(4) 生成对抗网络GAN入门
博客:https://blog.csdn.net/weixin_35154281/article/details/102158611
(5) WGAN,对GAN存在问题优化
博客:https://zhuanlan.zhihu.com/p/25071913
(6) CycleGAN,风格迁移,非配对数据集做图像生成的基础
Paper:https://www.paperweekly.site/papers/807
代码: https://junyanz.github.io/CycleGAN/
入门后,可以选择深入做的方向(其中超分是一个很好的方向,其他方向的改进思路很多来源于超分):
·超分辨率(Super Resolution)
·图像复原/图像增强(ImageRestoration)
·图像去阴影/去反射(Image Shadow Removal/Image Reflection Removal)
·图像去噪/去模糊/去雨去雾(ImageDenoising)
·图像编辑/修复(Image Edit/Image Inpainting)
·图像翻译(Image Translation)
·图像质量评估(Image Quality Assessment)
·风格迁移(Style Transfer)
此外,其实还有其他一些领域可以根据兴趣进行研究和学习。
·主动学习(Active Learning)
·小样本学习/零样本学习/元学习(Few-shot/Zero-shot Learning)
·持续学习(Continual Learning/Life-long Learning)
·迁移学习/domain/自适应(Transfer Learning/Domain Adaptation)
·度量学习(Metric Learning)
·对比学习(Contrastive Learning)
·强化学习(Reinforcement Learning)
·元学习(Meta Learning)
*部分顶级期刊和会议以及科研工具(一般看会议论文,更新快)
1.顶级视觉人工智能会议:
CVPR:IEEE Conference on Computer Vision and Pattern Recognition
ICCV:IEEE International Conference on Computer Vision
ECCV:European Conference on Computer Vision
2.顶级视觉人工智能期刊
TIP:IEEE Transaction on Image Processing
PAMI:IEEE Transactions on Pattern Analysis and Machine Intelligence
PR:Pattern Recognition
3.论文pdf和代码搜索网站
https://paperswithcode.com/sota
https://github.com/
4.会议期刊信息查询
https://www.myhuiban.com/
5.参考文献论文信息查询
https://dblp.org/
6.论文书写工具
Overleaf:可以在线编辑latex论文,并分享给你的导师,帮你修改论文。
EndNote X7:参考文献管理工具,适合word。
JabRef:参考文献管理工具,适合latex。
学者网

评论 2