-
前向传播(Forward Propagation)
- 作用:数据从输入层到输出层的单向传递过程,通过加权求和与激活函数逐层计算。
- 依赖:无(基础操作)。
- 核心作用:基于当前参数计算网络输出,为反向传播提供输入。
-
激活函数(Activation Functions)
- 作用:引入非线性,决定神经元是否激活。常见类型:ReLU、Sigmoid、Tanh。
- 依赖:前向传播的必经环节。
- 核心作用:使网络能够拟合复杂函数,解决线性不可分问题。
-
权重初始化(Weight Initialization)
- 作用:初始化网络参数(如 Xavier/He 初始化),影响训练稳定性。
- 依赖:需在首次前向传播前完成。
- 核心作用:防止梯度消失/爆炸,加速收敛。
-
损失函数(Loss Function)
- 作用:量化预测值与真实值的差距(如 MSE、交叉熵)。
- 依赖:前向传播的输出结果。
- 核心作用:提供优化目标,指导参数更新方向。
-
反向传播(Backpropagation)
- 作用:通过链式法则计算损失函数对参数的梯度。
- 依赖:前向传播完成后触发。
- 核心作用:传递梯度信息,为参数更新提供依据。
-
梯度下降(Gradient Descent)
- 作用:沿梯度反方向更新参数以最小化损失。
- 依赖:反向传播提供的梯度。
- 核心作用:驱动模型参数向最优解逼近。
-
优化器(Optimizer)
- 作用:改进梯度下降的算法(如 SGD、Adam、RMSprop)。
- 依赖:梯度下降的扩展实现。
- 核心作用:自适应调整学习率,提升训练效率。
-
批量归一化(Batch Normalization)
- 作用:标准化每层输出(均值为0,方差为1)。
- 依赖:通常在前向传播中插入。
- 核心作用:缓解内部协变量偏移,加速训练收敛。
-
正则化(Regularization)
- 作用:防止过拟合(如 L1/L2 正则化、Dropout)。
- 依赖:在损失函数或网络结构中应用。
- 核心作用:约束模型复杂度,提升泛化能力。
-
梯度消失与爆炸(Vanishing & Exploding Gradients)
- 作用:深层网络中的梯度异常现象。
- 依赖:反向传播的副作用。
- 解决方案:ReLU、残差连接、梯度裁剪。
-
卷积(Convolution)
- 作用:通过卷积核提取局部特征(CNN 核心操作)。
- 依赖:替代全连接层的前向传播方式。
- 核心作用:降低参数量,捕捉空间/时序特征。
-
池化(Pooling)
- 作用:降维并保留关键特征(如 Max/Average Pooling)。
- 依赖:常接在卷积层后。
- 核心作用:增强平移不变性,防止过拟合。
-
跳跃连接(Skip Connections)
- 作用:跨层直连(如 ResNet 的残差结构)。
- 依赖:解决深层网络梯度问题。
- 核心作用:促进梯度流动,训练超深层网络。
-
注意力机制(Attention Mechanism)
- 作用:动态分配特征权重(如 Transformer)。
- 依赖:可嵌入各类网络结构。
- 核心作用:增强对关键信息的聚焦能力。
-
学习率调度(Learning Rate Scheduling)
- 作用:动态调整学习率(如 Step Decay、Cosine Annealing)。
- 依赖:优化器的扩展功能。
- 核心作用:平衡收敛速度与精度,避免震荡。
-
对抗训练(Adversarial Training)
- 作用:通过对抗样本增强鲁棒性。
- 依赖:需在损失函数中引入扰动。
- 核心作用:提升模型抗干扰能力。
-
迁移学习(Transfer Learning)
- 作用:复用预训练模型(如 ImageNet 迁移)。
- 依赖:需已有训练好的基础模型。
- 核心作用:加速小数据任务训练,提升性能。
-
自监督学习(Self-Supervised Learning)
- 作用:通过预训练任务学习表征(如 BERT、对比学习)。
- 依赖:无需人工标注数据。
- 核心作用:利用海量无标签数据预训练模型。
- 图神经网络(GNN)
- 作用:处理图结构数据(如社交网络、分子结构)。
- 依赖:扩展传统神经网络结构。
- 核心作用:建模节点间复杂关系。
- 基础组件(1-3)为所有网络的必备要素。
- 训练机制(4-7)构成参数更新的核心闭环。
- 稳定性技术(8-10)解决训练过程中的数值和泛化问题。
- 架构技术(11-14)针对特定任务优化网络结构。
- 策略优化(15-16)进一步提升训练效果。
- 高级方法(17-18)突破数据或算力限制。
- 扩展应用(19)将神经网络扩展到非欧式数据。
此结构遵循从基础到应用、从前向计算到训练优化的递进关系,确保知识体系的连贯性。