Skip to content

Latest commit

 

History

History
131 lines (101 loc) · 5.46 KB

DeepLearning-Concepts.md

File metadata and controls

131 lines (101 loc) · 5.46 KB

神经网络基础概念与算法关系


一、神经网络基础组件

  1. 前向传播(Forward Propagation)

    • 作用:数据从输入层到输出层的单向传递过程,通过加权求和与激活函数逐层计算。
    • 依赖:无(基础操作)。
    • 核心作用:基于当前参数计算网络输出,为反向传播提供输入。
  2. 激活函数(Activation Functions)

    • 作用:引入非线性,决定神经元是否激活。常见类型:ReLU、Sigmoid、Tanh。
    • 依赖:前向传播的必经环节。
    • 核心作用:使网络能够拟合复杂函数,解决线性不可分问题。
  3. 权重初始化(Weight Initialization)

    • 作用:初始化网络参数(如 Xavier/He 初始化),影响训练稳定性。
    • 依赖:需在首次前向传播前完成。
    • 核心作用:防止梯度消失/爆炸,加速收敛。

二、训练过程核心机制

  1. 损失函数(Loss Function)

    • 作用:量化预测值与真实值的差距(如 MSE、交叉熵)。
    • 依赖:前向传播的输出结果。
    • 核心作用:提供优化目标,指导参数更新方向。
  2. 反向传播(Backpropagation)

    • 作用:通过链式法则计算损失函数对参数的梯度。
    • 依赖:前向传播完成后触发。
    • 核心作用:传递梯度信息,为参数更新提供依据。
  3. 梯度下降(Gradient Descent)

    • 作用:沿梯度反方向更新参数以最小化损失。
    • 依赖:反向传播提供的梯度。
    • 核心作用:驱动模型参数向最优解逼近。
  4. 优化器(Optimizer)

    • 作用:改进梯度下降的算法(如 SGD、Adam、RMSprop)。
    • 依赖:梯度下降的扩展实现。
    • 核心作用:自适应调整学习率,提升训练效率。

三、训练稳定性与泛化

  1. 批量归一化(Batch Normalization)

    • 作用:标准化每层输出(均值为0,方差为1)。
    • 依赖:通常在前向传播中插入。
    • 核心作用:缓解内部协变量偏移,加速训练收敛。
  2. 正则化(Regularization)

    • 作用:防止过拟合(如 L1/L2 正则化、Dropout)。
    • 依赖:在损失函数或网络结构中应用。
    • 核心作用:约束模型复杂度,提升泛化能力。
  3. 梯度消失与爆炸(Vanishing & Exploding Gradients)

    • 作用:深层网络中的梯度异常现象。
    • 依赖:反向传播的副作用。
    • 解决方案:ReLU、残差连接、梯度裁剪。

四、网络架构关键技术

  1. 卷积(Convolution)

    • 作用:通过卷积核提取局部特征(CNN 核心操作)。
    • 依赖:替代全连接层的前向传播方式。
    • 核心作用:降低参数量,捕捉空间/时序特征。
  2. 池化(Pooling)

    • 作用:降维并保留关键特征(如 Max/Average Pooling)。
    • 依赖:常接在卷积层后。
    • 核心作用:增强平移不变性,防止过拟合。
  3. 跳跃连接(Skip Connections)

    • 作用:跨层直连(如 ResNet 的残差结构)。
    • 依赖:解决深层网络梯度问题。
    • 核心作用:促进梯度流动,训练超深层网络。
  4. 注意力机制(Attention Mechanism)

    • 作用:动态分配特征权重(如 Transformer)。
    • 依赖:可嵌入各类网络结构。
    • 核心作用:增强对关键信息的聚焦能力。

五、训练策略优化

  1. 学习率调度(Learning Rate Scheduling)

    • 作用:动态调整学习率(如 Step Decay、Cosine Annealing)。
    • 依赖:优化器的扩展功能。
    • 核心作用:平衡收敛速度与精度,避免震荡。
  2. 对抗训练(Adversarial Training)

    • 作用:通过对抗样本增强鲁棒性。
    • 依赖:需在损失函数中引入扰动。
    • 核心作用:提升模型抗干扰能力。

六、高级学习方法

  1. 迁移学习(Transfer Learning)

    • 作用:复用预训练模型(如 ImageNet 迁移)。
    • 依赖:需已有训练好的基础模型。
    • 核心作用:加速小数据任务训练,提升性能。
  2. 自监督学习(Self-Supervised Learning)

    • 作用:通过预训练任务学习表征(如 BERT、对比学习)。
    • 依赖:无需人工标注数据。
    • 核心作用:利用海量无标签数据预训练模型。

七、扩展应用领域

  1. 图神经网络(GNN)
    • 作用:处理图结构数据(如社交网络、分子结构)。
    • 依赖:扩展传统神经网络结构。
    • 核心作用:建模节点间复杂关系。

逻辑依赖说明

  1. 基础组件(1-3)为所有网络的必备要素。
  2. 训练机制(4-7)构成参数更新的核心闭环。
  3. 稳定性技术(8-10)解决训练过程中的数值和泛化问题。
  4. 架构技术(11-14)针对特定任务优化网络结构。
  5. 策略优化(15-16)进一步提升训练效果。
  6. 高级方法(17-18)突破数据或算力限制。
  7. 扩展应用(19)将神经网络扩展到非欧式数据。

此结构遵循从基础到应用、从前向计算到训练优化的递进关系,确保知识体系的连贯性。