Syllabus

课程大纲与学习目标

欢迎来到大模型时代：生成式 AI 与基础范式

01

建立共同语言：大语言模型能做什么、为什么能做到，以及从预训练到对齐的基本流程与关键概念。

Topics

大模型时代：能力边界与应用场景
判别式 vs 生成式：生成模型的直觉
预训练、指令微调、偏好对齐（RLHF/DPO）的基本流程
Token、上下文窗口与推理成本（延迟/吞吐）

Outcomes

能用清晰术语解释训练/对齐各阶段的目标与差异
能识别常见误用边界，形成合理预期与沟通口径

自监督学习与 Transformer：从 RNN 到大模型

02

从自监督学习出发理解语言建模，并掌握 Transformer/注意力机制支撑规模化训练与推理的核心直觉。

Topics

自监督学习：从数据到目标函数
RNN vs Transformer：注意力机制与并行计算
表征与泛化：为什么“规模”会带来能力跃迁

Outcomes

能解释自监督学习与语言建模之间的关系
能用直觉描述 Transformer 的关键组件与优势

强化学习与决策智能：从 RL 到偏好优化

03

从强化学习与策略优化的基本概念出发，理解 LLM 对齐中的 RLHF/DPO 等方法，以及“决策式智能”的工程含义。

Topics

强化学习要素：状态、动作、奖励与策略
策略优化与探索：从直觉到工程取舍
偏好优化：RLHF/DPO 的目标与常见实践

Outcomes

能用简化例子解释“奖励/策略”如何影响行为
能区分指令微调与偏好优化，并理解适用边界

扩展定律、调优、幻觉与安全

04

理解规模化训练与推理服务的基本规律，并掌握常见失效模式（幻觉/越权/注入）与防护思路。

Topics

扩展定律与能力跃迁：数据/算力/参数的权衡
调优与对齐：常见策略与风险
失效模式：幻觉、提示注入、越权与数据泄露
安全护栏：最小权限、过滤、审计与红队思路

Outcomes

能为一个应用识别主要风险并提出可行防护
能设计基本的质量评测与回归流程

参数微调、提示/工具学习

05

从 Prompt 到轻量微调与工具学习，理解如何让模型更稳定、更可控地完成复杂任务并与外部能力协作。

Topics

Prompt 设计：目标、约束与结构化输出
轻量微调：LoRA/PEFT 的基本思路与成本权衡
工具学习：函数调用/工具选择与错误恢复

Outcomes

能为常见任务设计可复用的 prompt 模板与校验策略
能选择“只做 Prompt / 做微调 / 加工具”之间的合适方案

多模态与世界模拟：从对话到具身

06

了解图文对齐、多模态生成与对话系统的关键技术，并理解世界模型/模拟器与具身智能的核心想法与挑战。

Topics

多模态输入输出：图像理解、文本生成与对齐
多模态对话：上下文、记忆与交互体验
世界模型/模拟器：规划、预测与具身智能

Outcomes

能描述多模态模型的基本能力与限制，并给出合适的应用设想
能把“世界模型/具身”概念与实际系统设计关联起来