目录

TorchCode 技术文档索引

TorchCode 技术文档

本文档是对 TorchCode 项目中 40 个 PyTorch 算子/算法练习的完整技术解读。从基础激活函数到前沿 RLHF 损失函数,覆盖深度学习工程师需要掌握的核心实现细节。

章节文件内容概要
总览00_overview.md项目整体架构、知识图谱、学习路径、各模块关联与对比
第一章01_activations_and_fundamentals.md激活函数(ReLU、GELU、Softmax)、线性层、嵌入层、Dropout、交叉熵损失
第二章02_normalization.mdLayerNorm、BatchNorm、RMSNorm — 归一化技术全解
第三章03_attention_mechanisms.mdScaled Dot-Product Attention、Multi-Head Attention、Causal Attention、Cross-Attention、GQA、Sliding Window、Linear Attention、KV Cache、RoPE、Flash Attention
第四章04_architectures.mdGPT-2 Block、SwiGLU MLP、ViT Patch Embedding、LoRA、Mixture of Experts、Conv2d
第五章05_training_optimization.mdAdam 优化器、Cosine LR、梯度裁剪、梯度累积、Kaiming 初始化、线性回归
第六章06_inference_decoding.mdTop-k/Top-p 采样、Beam Search、Speculative Decoding
第七章07_advanced_topics.mdBPE 分词器、INT8 量化、DPO Loss、GRPO Loss、PPO Loss
  • 🟢 Easy(9 题):ReLU、Softmax、Cross-Entropy、Dropout、Embedding、GELU、Kaiming Init、Gradient Clipping、Gradient Accumulation
  • 🟡 Medium(14 题):Linear、LayerNorm、BatchNorm、RMSNorm、SwiGLU MLP、Conv2d、Cross-Attention、LoRA、ViT Patch、Adam、Cosine LR、Top-k Sampling、Beam Search、Linear Regression
  • 🔴 Hard(17 题):Attention、MHA、Causal Attention、GQA、Sliding Window、Linear Attention、GPT-2 Block、KV Cache、RoPE、Flash Attention、MoE、Speculative Decoding、BPE、INT8 Quantization、DPO Loss、GRPO Loss、PPO Loss

相关内容