转载：ilab学习资料

<img src=”https://cdn.nlark.com/yuque/0/2026/png/29798182/1777477831765-bfe91ee7-1e5f-4b77-8050-487f4e02113d.png” width=”1816″ title=”” crop=”0,0,1,1″ id=”ua7ad7b35″ class=”ne-image”> **欢迎加入ilab相亲相爱一家人，满满当当的干货来啦~，遇到不会的，可以多问AI，让我们开始吧** **———————————————————————————————** **资料分为两个部分：** 1. **建议阅读顺序** + 快速入门😉 深度学习->计算机视觉->Paper阅读 + 成为高手😎 数学基础->机器学习->深度学习->计算机视觉->Paper阅读 2. **各部分知识点一个简洁罗列** 主要是帮助梳理脉络，但不可能全面，因为：①新的知识与架构在不断涌现 ②每个人所课题和方向存在差异后续当作自查和复习用，不用一开始全掌握，先完成再完美哈🥇~ ### 一、知识结构 ![画板](https://cdn.nlark.com/yuque/0/2026/jpeg/29798182/1777477547452-2d885ed3-3e88-4e22-96da-c05f74fe2d88.jpeg) ### 二、学习资源推荐 #### 深度学习掌握MLP->CNN/RNN->Transformer的演进过程；掌握Batch Normalization/Dropout/残差连接 (ResNet)/注意力机制 ##### 经典算法 + 李沐《动手深度学习》（**首推！！！**） [《动手学深度学习》 — 动手学深度学习 2.0.0 documentation](https://zh.d2l.ai/index.html) + 书籍《Pytorch 深度学习实战》**：**[PyTorch深度学习实战.pdf]() + 书籍《神经网络与深度学习》[神经网络和深度学习.pdf](https://www.yuque.com/attachments/yuque/0/2026/pdf/29798182/1777481203125-12b936a1-bc2c-4669-9928-9d451cbba569.pdf) + 吴恩达 ##### Pytorch 框架 + Pytorch 官方教程 [Welcome to PyTorch Tutorials — PyTorch Tutorials 2.2.1+cu121 documentation](https://pytorch.org/tutorials/) + 深入浅出Pytorch [深入浅出PyTorch — 深入浅出PyTorch](https://datawhalechina.github.io/thorough-pytorch/index.html) + Pytorch学习笔记 [(开篇词)PyTorch 学习笔记 | PyTorch 学习笔记](https://pytorch.zhangxiann.com/) **** #### 机器学习 + 李航《统计学习方法》第二版 [统计学习方法（第2版）.pdf]() + 周志华《机器学习》，西瓜书+南瓜书（西瓜书的详细公式推导） + 李宏毅 ML+DL 课（ML,DL知识都有） [【国语+资料下载】李宏毅 HYLEE | 机器学习(深度学习)(2021最新·完整版)_哔哩哔哩_bilibili](https://www.bilibili.com/video/BV1fM4y137M4/) #### 计算机视觉 ##### 计算机视觉与深度学习（优先看） + 书籍《Pytorch 计算机视觉实战》机械工业出版社 + 书籍《Deep Learning for Vison System》:[Muhamed_Deep Learning for Vision Systems.pdf]() （中文版高清PDF没有找到，有纸质版） + 李飞飞斯坦福 CS231n 课程（网上中文资源很多，放出的视频课是2017版本） [Stanford University CS231n: Deep Learning for Computer Vision](https://cs231n.stanford.edu/) + 密歇根大学 EECS498 课程 ##### 经典计算机视觉 + 计算机视觉：算法与应用（第一版） [计算机视觉：算法与应用（第一版）Chinese.pdf]() + 计算机视觉：算法与应用（第二版），当前无中文版 [计算机视觉：算法与应用（第二版）English.pdf]() ##### 数字图像处理（OpenCV） _推荐基于OpenCV 学习_ + OpenCV官方文档 [OpenCV: OpenCV-Python Tutorials](https://docs.opencv.org/5.x/d6/d00/tutorial_py_root.html) + 书籍《OpenCV 4快速入门》异步图书 #### Paper 阅读 **阅读论文重点在于该论文先前工作的局限性，然后才是论文针对局限性做的改进! (重要**🔥**)** 李沐AI论文精度： [GitHub – mli/paper-reading: 深度学习经典、新论文逐段精读](https://github.com/mli/paper-reading) #### 计算机基础 ##### Python Python 基础语法相信大家都已具备，不做过多推荐。 + 书籍《简明Python教程》 ##### Git 会用就好，各种教程很多 [Git教程](https://www.liaoxuefeng.com/wiki/896043488029600) ##### Linux 主要是：常用命令、Ubuntu系统安装和深度学习环境配置、远程ssh主机管理，以及一些Linux上常用工具的使用。 建议不要用 Windows CV & DL 科研或开发！ + Linux 常用命令速查：[Solrex.Linux.Cheatsheet.pdf]() + 快乐的Linux命令行： [TLCL](https://billie66.github.io/TLCL/) + 书籍《鸟哥的Linux 私房菜》 ##### Latex + Latex 速查：[Latex速查.pdf]() + 一份不太简短的Latex介绍：[一份不太简短的latext介绍.pdf]() ##### 数据结构 & 算法 [Hello 算法](https://www.hello-algo.com/) [GitHub – youngyangyang04/leetcode-master: 《代码随想录》LeetCode 刷题攻略：200道经典题目刷题顺序，共60w字的详细图解，视频难点剖析，50余张思维导图，支持C++，Java，Python，Go，JavaScript等多语言版本，从此算法学习不再迷茫！🔥🔥 来看看，你会发现相见恨晚！🚀](https://github.com/youngyangyang04/leetcode-master) #### 数学基础 + 斯坦福《线性代数与矩阵论》视频课 [【双语字幕+资料下载】斯坦福ENGR108 | 矩阵论与应用线性代数(2020·完整版)_哔哩哔哩_bilibili](https://www.bilibili.com/video/BV17h411W7bk/) + MIT 《计算机科学的数学基础》视频课 [【双语字幕+资料下载】MIT 6.042J | 计算机科学的数学基础(2015·完整版)_哔哩哔哩_bilibili](https://www.bilibili.com/video/BV1o64y1a7gT/) ### 三、知识点梳理 #### 深度学习与计算机视觉了解相关的一些高频名词和计算机视觉有哪些应用方向； + 卷积结构： Plain Conv, DW Conv, Ghost Conv, Deformer Conv, Octave Conv, Gropu Conv,1×1 Conv, HetConv, Dilated Conv, SCCov, Pyramid Conv, Tined Conv, Dynamic Conv,Decoupled Dynamic Conv, Involution, etc. + 激活函数： Sigmoid, Softmax, ReLU, Tanh, PReLU, ELU, GELU, SELU, LeakeReLU, SoftPlus, ACON, etc. + 损失函数： Binary/Weighted/Balanced Cross-Entropy, Mixed Focal/Focal Loss/GFocal Loss,Dice Loss, IoU/CIoU/GIoU/DIoU/CDIoU/EIoU Loss/Focal-EIOU Loss, Tversky Loss, Tripletloss, etc. + 池化相关 Max pooing, Average pooling, GAP, Stochastic pooling, etc. + 优化方法： Adam、SGD、Adentum、Nesterov、AdaDelta、RMSprop, etc. + 正则化技术： Dropout, DropBlock, Label Smoothing, SelfNorm & CrossNorm, etc. + 后处理技术： Watershed algorithm、CRF、TTA、Overlap Prediction、NMS, etc. + 归一化技术： BN, LN, GN, IN, BGN, SwitchableN, SBN, SSN, FRN, EBN, KalmanN, DualN,etc. + 学习率衰减： ReduceLROnPlatea, MultiStepLR, ExponentialLR, CosineAnnealingLR, StepLR,etc. + 注意力机制： SE, SK, Shuffle Attention, Non-local, CBAM, GC, OCR, CBM, CBAM, BA2M,FCANet, Coordinate Attention, etc. + 多尺度机制： ASPP, SPP, Big-Little, Inception, SFA, ASC, DCFAN, etc. + 特征可视化技术： CAM, Grad-CAM, Grad-CAM++, Smooth Grad-CAM++, score-CAM, ss-CAM, Ablation CAM, etc. + 数据增强 – 几何增强： Horizontal/Vertical flip, Rotation, Affine transformation, Translation, Cropping,Perspective transformation, Zoom, etc. – 色彩增强： Contrast, Brightness, Saturation, Color space conversion, Color jitter, Channelshuffling, Filling, Superimposed noise, etc. – 其它增强： Mixup, RandAugment, mosaic, dropout, cutout, cutmix, augmix, MoEx,RandErase, ObjectAug, InAugment, KeepAugment, Co-Mixup, ISDA, etc.、 – 距离度量公式： Manhattan Distance, Euclidean Distance, Chebyshev Distance, MinkowskiDistance, Cosine Distance, Mahalanobis Distance, Hamming Distance, Edit Distance, EarthMover’s distance，etc. – Backbone： LeNet-5, AlexNet, VGGNet, GoogleNet, ResNet, DenseNet, VoVNet, MoblieNet,ShuffleNet, Xception, queezeNet, RexNeXt, Res2Net, SENet, SKNet, DCNet, CSPNet, FBNet,EfficientNet, RegNet, ResNeSt, ReXNet, HaloNets, etc. + 语义分割： FCN, UNet, ENet, ThunderNet, RefineNet, SegNet, PSPNet, DeepLab,DenseASPP, OCRNet, HRNet,BiSeNet, etc. + 目标检测： – Two-stage： R-CNN & SPP & FastR-CNN & Faster R-CNN & Cascade-RCNN & SparseR-CNN, etc. – One-stage： YOLO v1-v5 & PPYOLO & SSD & RetinaNet & RefineDet & YOLOR &YOLOF & YOLObite & NanoDet & OneNet, etc. – Anchor-free： CornetNet & Objects as Points & CenterNet v1-v2 & FCOS, etc. – 实例分割： MaskRCNN, PolarMask, PolarMask++, PointRend, BlendMask, ISTR, SOLO v1-v2, Sparse RCNN, A2Net, etc. + 自监督学习： SimCLR, SimSiam, BYOL, SwAV, MoCo v1-v3, OBoW, DINO, etc. + 生成对抗网络： GAN, DCGAN, Conditional GAN, InfoGAN, BigGAN, WGAN, StyleGAN,CycleGAN, Pix2Pix2, StackGAN, LSGAN, CGGAN, PD-GAN, etc. + 重特征参数化 ACNet v1-v2, DBBNet, RepVGG, ResRep, etc. + Transformer相关 ViT, DETR, METR, SETR, DeiT, TNT, CrossViT, Swin Transformer, LeViT,RVT, PVT, BoTNet, TrTr, MOTR, ISTR, TransGAN, Local-ViT, IPT, DeepViT, CoTr, CaiT, CeiT,PiT, ViViT, CvT, T2T-ViT, TransT, SiT, LV-ViT, MViT, PRTR, CoaT, Segmenter, etc. + 多层感知机相关： MLP, MLP-Mixer, ExternalAttention, RepMLP, ResMLP, gMLP, etc. #### 机器学习 + 了解并区分什么是监督学习、无监督学习、半监督学习、弱监督学习、多示例学习、迁移学习、元学习、强化学习、对比学习、少样本学习、零样本学习； + 了解参数与超参数、数据拟合（欠拟合、过拟合、Under fit）、偏差与方差、训练集/验证集/测试集、生成模型与判别模型、奥卡姆剃刀/丑小鸭定理/没有免费午餐、样本统计（TP/TN/FP/FN）、交叉验证、参数搜索的概念；理解损失函数、梯度下降、正则化（L1 &L2）、数据降维（PCA & LDA）、数据归一化（Min-Max 标准化 & Z-score标准化）等原理及适用场景； + 掌握机器学习的十大基础算法，即Linear Regression、Logistic Regression、LDA、LVQ、Naive Bayes、KNN、Random Forest、Decision Tree、SVM、Bagging&Boosting&AdaBoost及K-Means算法。梳理各种树模型（GBDT & XGBoost & RF）之间的原理和区别； + 理解掌握常用的评价指标，如Accuracy、Recall（Sensitivity）、Precision、Dice（F1-score）、Jaccard、AUC曲线、P-R曲线、MIoU等。 + 学有余力的可以了解下期望最大化、隐马尔科夫模型及条件随机场等原理。 #### 数字图像处理 + 图像数字化：指的是将模拟（连续）信号的图像转换为数字（离散）信息的过程，主要包含采样和量化两个步骤。二维图像在计算机中通常是以矩阵的形式表示，这里需要了解图像的一些基本属性，如图像格式（BMP & JPEG & GIF & PNG的定义和区别）、图像分辨率和通道数（8位单通道二值图像 & 24位RGB通道彩色图像 & 32位RGBA通道 & 以及各种通道之间的互相转换）、图像尺寸（像素 & 图像宽度和高度）、图像色彩颜色空间（RGB & HSV & HSI & CMYK）、图像插值方法（最近邻插值、双线性插值、三线性插值）及图像成像方式（伽马射线 & X射线等）。 + 图像压缩：目的是减少图像中的冗余信息，以更高效的格式进行存储和传输数据。一般可分为有损压缩和无损压缩，这里我们只需要简单了解下有哪些经典的压缩算法即可。有兴趣的可以了解下JPEG压缩算法的原理和步骤（涉及离散余弦变换 & 量化 & YCbCr色彩空间） + 图像增强：指的是利用各种数学方法和变换手段来提高图像对比度与清晰度，使改善后的图像更适应于人的视觉特性或易于机器识别。简单来说，就是要突出感兴趣的特征，抑制不感兴趣的特征，从而改善图像质量。如强化图像中的高频分量，可使图像中物体轮廓清晰，细节更加明显；而强化图像中的低频分量可以减少图像中的噪声影响。这里我们需要重点掌握的是灰度直方图的概念，了解什么是直方图和对比度，掌握直方图均衡化、限制对比度的自适应直方图均衡化（CLAHE）以及伽马校正和仿射变换操作。 + 图像复原：指的是利用退化过程的先验知识，去恢复已被退化图像的本来面目。这是由于受采集设备和光照等外部环境的影响，图像在形成的过程中不可避免的会失真或者引入背景噪声干扰。因此，我们首先要知道噪声的来源（电子元器件发热或传输损失 & 成像系统的调制与缺陷& 光照等外部环境因素的干扰）以及各种噪声的来源和特点（高斯噪声 & 脉冲噪声[椒盐噪声 | 胡椒噪声 | 盐粒噪声] & 泊松噪声 & 斑点噪声）。最后便是如何去噪，这里需要重点掌握一些常见的线性和非线性滤波算法（均值滤波 & 中值滤波 & 维纳滤波 & 卡尔曼滤波 & 高通滤波 & 低通滤波 & 高斯滤波 & 双边滤波 & 拉普拉斯滤波 & 卷积核 & Gabor滤波器）。需要注意的是，我们在学习的过程中不能停留在定义上，而是应该着重理解各种滤波背后的工作原理及应用范围，如低通滤波可用于消除噪声、高通滤波常用语提取边缘，又比如高斯滤波就是用来去除高斯噪声、均值滤波和中值滤波有助于去除胡椒噪声、边滤波则能够在滤波的同时保证一定的边缘信息，但是计算复杂度较高。 + 图像基本运算：指的是对图像执行一些基本的数学运算。这里涉及到的运算主要可分为点运算（线性 & 分段 & 非线性点运算）、代数运算（加法 & 减法运算）、逻辑运算以及最重要的几何运算（图像平移 & 旋转 & 翻转 & 镜像 & 缩放） + 图像边缘检测：这里仅需了解下有哪些边缘检测算子以及重点掌握一些常见的算子。如一阶微分算子（Sobel算子 & Roberts算子 & Prewitt算子）、二阶微分算子（Laplacian算子 & LOG算子）及Canny算子。 + 图像形态学操作：指的是一系列处理图像形状特征的图像处理技术。这里需要着重掌握的有腐蚀和膨胀、开运算与闭运算、形态学梯度（用于保留边缘轮廓）、白色和黑色顶帽变换；此外，也可了解下细化、厚化、击中击不中变换、边界/孔洞/联通分量提取。 + 图像变换：指的是将图像阵列从源域转换到目标域。了解几种常见的变换方式，如傅里叶变换、离散余弦变换。此外，可以重点学习下用于特征提取的霍夫变换，实战下如何利用该技术进行直线、圆和弧线等局部特征的提取。最后，再重点梳理下傅里叶变换与小波变换之间的区别和联系。 + 图像分割：主要是基于灰度值的不连续和相似的性质将图像划分为前景区域和背景区域。对于不连续的灰度值，常用的方法是边缘检测。而对于相似的灰度，我们一般常用阈值处理（局部多阈值 & 全局阈值 & Otsu自适应阈值）、区域生长、分水岭算法等。 + 图像质量评价：主要是对图像的某些特性进行分析研究，评估出图像的失真程度。这里需要重点掌握几个评价指标：SSIM（结构相似度）、PSNR（峰值信噪比）及MSE（均方误差）。 ### 更新历史 + V2版本，2026-04-29，调整学习路线，并丰富深度学习部分内容 + V1版本，2024-04-08，感谢帅伯师兄收集并构建！🚩

发送评论 编辑评论

推荐文章

发送评论编辑评论