Skip to content

Commit

Permalink
✏️机器学习
Browse files Browse the repository at this point in the history
  • Loading branch information
0xcaffebabe committed Aug 4, 2024
1 parent dd7659e commit 85c867f
Show file tree
Hide file tree
Showing 4 changed files with 18 additions and 2 deletions.
Binary file added doc/assets/20240804150736.gif
Loading
Sorry, something went wrong. Reload?
Sorry, we cannot display this file.
Sorry, this file is invalid so it cannot be displayed.
Binary file added doc/assets/20240804152626.webp
Binary file not shown.
14 changes: 14 additions & 0 deletions doc/数据技术/深度学习.md
Original file line number Diff line number Diff line change
Expand Up @@ -199,6 +199,20 @@ $$

最后,输出门根据当前的细胞状态和输入,计算并输出当前时刻的隐藏状态

### seq2seq

编码器:读取并理解输入序列,然后把它转换为一个固定长度的上下文向量,也叫作状态向量。这个向量是输入序列的一种内部表示,捕捉了序列的关键信息。编码器通常是一个循环神经网络(RNN)或其变体,比如长短期记忆网络(LSTM)或门控循环单元(GRU),它们能够处理不同长度的输入序列,并且记住序列中的长期依赖关系

解码器:接收编码器生成的上下文向量,并基于这个向量生成目标序列。解码过程是一步步进行的,每一步生成目标序列中的一个元素,比如一个词或字符,直到生成特殊的结束符号,表示输出序列的结束。解码器通常也是一个 RNN、LSTM 或 GRU,它不仅依赖于编码器的上下文向量,还可能依赖于自己之前的输出,来生成下一个输出元素

注意力机制(可选):在生成每个输出元素时“关注”输入序列中的不同部分,从而提高模型处理长序列和捕捉复杂依赖关系的能力

![20240804150736](/assets/20240804150736.gif)

### Transformer

![Transformer 整体架构](/assets/20240804152626.webp)

## 表示学习

学习数据的有用特征,使得这些特征能够更好地捕捉数据的结构和模式
6 changes: 4 additions & 2 deletions doc/数据技术/特征工程.md
Original file line number Diff line number Diff line change
Expand Up @@ -37,13 +37,15 @@ One-hot 编码(也被称为独热编码),它是将类别、ID 型特征转

用一个数值向量“表示”一个对象(Object)的方法

词 Embedding
### 词 Embedding

![生成 Skip-gram 模型结构的训练数据](/assets/202391820926.webp)

在通过神经网络训练得到模型,一个词就可以通过模型推断,转为向量

图 Embedding:
连续词袋(CBOW):一种通过上下文预测目标词的神经网络架构,上下文由目标词周围的一个或多个词组成,这个数目由窗口大小决定。窗口是指上下文词语的范围,如果窗口为 10,那么模型将使用目标词前后各 10 个词

### 图 Embedding

1. Deep Walk:在由物品组成的图结构上进行随机游走,产生大量物品序列,然后将这些物品序列作为训练样本输入 Word2vec 进行训练,最终得到物品的 Embedding
2. Node2vec:通过调整随机游走跳转概率的方法,让 Graph Embedding 的结果在网络的同质性(Homophily)和结构性(Structural Equivalence)中进行权衡。同质性指的是距离相近节点的 Embedding 应该尽量近似,结构性指的是结构上相似的节点的 Embedding 应该尽量接近
Expand Down

0 comments on commit 85c867f

Please sign in to comment.