TorchCode 技术文档索引

2026-04-01 2026-04-03 约 914 字预计阅读 5 分钟

系列 - TorchCode 系列

TorchCode 技术文档

本文档是对 TorchCode 项目中 40 个 PyTorch 算子/算法练习的完整技术解读。从基础激活函数到前沿 RLHF 损失函数，覆盖深度学习工程师需要掌握的核心实现细节。

章节	文件	内容概要
总览	00_overview.md	项目整体架构、知识图谱、学习路径、各模块关联与对比
第一章	01_activations_and_fundamentals.md	激活函数（ReLU、GELU、Softmax）、线性层、嵌入层、Dropout、交叉熵损失
第二章	02_normalization.md	LayerNorm、BatchNorm、RMSNorm — 归一化技术全解
第三章	03_attention_mechanisms.md	Scaled Dot-Product Attention、Multi-Head Attention、Causal Attention、Cross-Attention、GQA、Sliding Window、Linear Attention、KV Cache、RoPE、Flash Attention
第四章	04_architectures.md	GPT-2 Block、SwiGLU MLP、ViT Patch Embedding、LoRA、Mixture of Experts、Conv2d
第五章	05_training_optimization.md	Adam 优化器、Cosine LR、梯度裁剪、梯度累积、Kaiming 初始化、线性回归
第六章	06_inference_decoding.md	Top-k/Top-p 采样、Beam Search、Speculative Decoding
第七章	07_advanced_topics.md	BPE 分词器、INT8 量化、DPO Loss、GRPO Loss、PPO Loss

🟢 Easy（9 题）：ReLU、Softmax、Cross-Entropy、Dropout、Embedding、GELU、Kaiming Init、Gradient Clipping、Gradient Accumulation
🟡 Medium（14 题）：Linear、LayerNorm、BatchNorm、RMSNorm、SwiGLU MLP、Conv2d、Cross-Attention、LoRA、ViT Patch、Adam、Cosine LR、Top-k Sampling、Beam Search、Linear Regression
🔴 Hard（17 题）：Attention、MHA、Causal Attention、GQA、Sliding Window、Linear Attention、GPT-2 Block、KV Cache、RoPE、Flash Attention、MoE、Speculative Decoding、BPE、INT8 Quantization、DPO Loss、GRPO Loss、PPO Loss