TorchCode 技术文档索引
系列 - TorchCode 系列
目录
TorchCode 技术文档
本文档是对 TorchCode 项目中 40 个 PyTorch 算子/算法练习的完整技术解读。从基础激活函数到前沿 RLHF 损失函数,覆盖深度学习工程师需要掌握的核心实现细节。
文档索引
| 章节 | 文件 | 内容概要 |
|---|---|---|
| 总览 | 00_overview.md | 项目整体架构、知识图谱、学习路径、各模块关联与对比 |
| 第一章 | 01_activations_and_fundamentals.md | 激活函数(ReLU、GELU、Softmax)、线性层、嵌入层、Dropout、交叉熵损失 |
| 第二章 | 02_normalization.md | LayerNorm、BatchNorm、RMSNorm — 归一化技术全解 |
| 第三章 | 03_attention_mechanisms.md | Scaled Dot-Product Attention、Multi-Head Attention、Causal Attention、Cross-Attention、GQA、Sliding Window、Linear Attention、KV Cache、RoPE、Flash Attention |
| 第四章 | 04_architectures.md | GPT-2 Block、SwiGLU MLP、ViT Patch Embedding、LoRA、Mixture of Experts、Conv2d |
| 第五章 | 05_training_optimization.md | Adam 优化器、Cosine LR、梯度裁剪、梯度累积、Kaiming 初始化、线性回归 |
| 第六章 | 06_inference_decoding.md | Top-k/Top-p 采样、Beam Search、Speculative Decoding |
| 第七章 | 07_advanced_topics.md | BPE 分词器、INT8 量化、DPO Loss、GRPO Loss、PPO Loss |
难度分布
- 🟢 Easy(9 题):ReLU、Softmax、Cross-Entropy、Dropout、Embedding、GELU、Kaiming Init、Gradient Clipping、Gradient Accumulation
- 🟡 Medium(14 题):Linear、LayerNorm、BatchNorm、RMSNorm、SwiGLU MLP、Conv2d、Cross-Attention、LoRA、ViT Patch、Adam、Cosine LR、Top-k Sampling、Beam Search、Linear Regression
- 🔴 Hard(17 题):Attention、MHA、Causal Attention、GQA、Sliding Window、Linear Attention、GPT-2 Block、KV Cache、RoPE、Flash Attention、MoE、Speculative Decoding、BPE、INT8 Quantization、DPO Loss、GRPO Loss、PPO Loss