通过从头开始制作学习 LLM 第二章读书笔记

힘센캥거루
2025년 10월 19일(수정됨)
1
22
challenge
通过从头开始制作学习 LLM 第二章读书笔记-1

已经是参加挑战的第二周。

昨天还没有完成第二章,趁着来参加 1 泊 2 日的研修,熬到 12 点才勉强赶上进度。

1. 内容

第二章的内容以单词的分词、编码、解码、嵌入向量为中心。

尽管之前试过制作 One-hot 编码器,对于其他部分比较熟悉,但是嵌入向量本身的内容是新的。

One-hot 编码器为每个单词创建 3 维矩阵,将该部分设为 1,而嵌入向量则表示为 x、y、z 等 3 维上的向量。

通过从头开始制作学习 LLM 第二章读书笔记-2

2. 问题

在进行嵌入向量时不断产生问题。

  • 为什么初始嵌入使用 seed 制作不重叠的随机数?

  • 矩阵本身是 2 维,为什么称为 3 维?

  • 为什么将词元嵌入和位置嵌入相加?

这些问题通过 Chat-GPT 解决了。

通过从头开始制作学习 LLM 第二章读书笔记-3

嵌入向量发挥着查找单词的字典作用。

初始嵌入赋予 seed 是为了在坐标系上让单词的位置不同地分散开来。

而用相同的 seed 创建的嵌入,与最初的嵌入相同,因此单词的位置也一致。

因此,词元嵌入和位置嵌入相加时,该单词的特征和语境一同呈现出来。

3. 后记

在 Vercel AI SDK 中模糊地看到过嵌入向量,现在终于理解得更加清晰。

如果想用数学表达出来很困难,但理解其意义的话,就能更容易地接近它。

今后也将继续坚持下去。

댓글을 불러오는 중...