所有课程

计算机视觉应用中的高级卷积神经网络

章节 1: 回顾CNN核心与现代架构

卷积神经网络构建模块简要回顾

CNN 架构的演变：从 AlexNet 到 ResNet

理解残差连接与跳跃架构

Inception 模块和网络中的网络思想

DenseNet：架构与连接模式

EfficientNet：模型复合缩放

架构设计选择与权衡

现代架构构建实践

章节 2: 高级训练与优化方法

高级优化算法

学习率策略和周期性学习率

正则化再论：进阶方法

批量归一化内部运作及替代方案

深度网络的权重初始化策略

梯度裁剪与梯度流动缓解

混合精度训练的基本原理

深度CNN训练的调试与监控

动手实践：实现高级训练循环

章节 3: 目标检测算法

两阶段检测器：R-CNN 系列

区域候选网络解析

单阶段检测器：YOLO系列

单阶段检测器：SSD 和 RetinaNet

锚框：设计与优化

非极大值抑制的变体

目标检测的评估指标

目标检测器实现练习

章节 4: 图像分割技术

语义分割与实例分割

全卷积网络用于图像分割

编码器-解码器架构：U-Net 和 SegNet

用于图像分割的空洞（Atrous）卷积

DeepLab 系列：空洞空间金字塔池化

实例分割方法 (Mask R-CNN)

分割的评估指标

实践操作：构建语义分割模型

章节 5: 视觉中的注意力机制与Transformer

CNN中的自注意力机制

非局部神经网络

视觉Transformer简介

ViT 架构：图像块、嵌入和 Transformer 编码器

混合CNN-Transformer模型

CNN与Transformer在视觉任务中的比较

在CNN中实现注意力模块的实践

章节 6: 高级迁移学习与域适应

回顾迁移学习策略

微调与特征提取：高级考量

使模型适应不同数据分布

域泛化概述

基于CNN的小样本学习

视觉自监督学习预训练

动手实践：在特定数据集上微调模型

章节 7: 生成对抗网络用于图像合成

GAN 基本原理回顾

训练生成对抗网络的挑战

深度卷积生成对抗网络 (DCGAN)

条件GANs用于可控生成

StyleGAN 架构与基于风格的生成

GAN 的评估指标

图像生成实践中的DCGAN实现

章节 8: 模型压缩与高效深度学习

高效模型的动因

网络剪枝技术

知识蒸馏方法

量化：降低模型精度

设计高效架构

神经网络架构搜索概览

动手实践：应用剪枝与量化

非局部神经网络

这部分内容有帮助吗？

参考文献

Non-local Neural Networks, Xiaolong Wang, Ross Girshick, Abhinav Gupta, Kaiming He, 2018 Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR) (IEEE Computer Society) DOI: 10.1109/CVPR.2018.00813 - 介绍了非局部神经网络架构、其通用公式和具体实现，是本节内容的原始来源。
Attention Is All You Need, Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, Illia Polosukhin, 2017 Advances in Neural Information Processing Systems (NeurIPS), Vol. 30 DOI: 10.48550/arXiv.1706.03762 - 提出了Transformer架构和自注意力机制，非局部操作对此进行了推广，并与它紧密相关。
An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale, Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner, Mostafa Dehghani, Matthias Minderer, Georg Heigold, Sylvain Gelly, Jakob Uszkoreit, and Neil Houlsby, 2021 International Conference on Learning Representations (ICLR) DOI: 10.48550/arXiv.2010.11929 - 介绍了Vision Transformer (ViT) 模型，展示了如何将Transformer架构和自注意力机制有效地应用于图像分类，这建立在全局上下文建模的思想之上。

© 2025 ApX Machine Learning用心打造