Syllabus

课程大纲与学习目标

Topics
  • 大模型时代:能力边界与应用场景
  • 判别式 vs 生成式:生成模型的直觉
  • 预训练、指令微调、偏好对齐(RLHF/DPO)的基本流程
  • Token、上下文窗口与推理成本(延迟/吞吐)
Outcomes
  • 能用清晰术语解释训练/对齐各阶段的目标与差异
  • 能识别常见误用边界,形成合理预期与沟通口径
Topics
  • 自监督学习:从数据到目标函数
  • RNN vs Transformer:注意力机制与并行计算
  • 表征与泛化:为什么“规模”会带来能力跃迁
Outcomes
  • 能解释自监督学习与语言建模之间的关系
  • 能用直觉描述 Transformer 的关键组件与优势
Topics
  • 强化学习要素:状态、动作、奖励与策略
  • 策略优化与探索:从直觉到工程取舍
  • 偏好优化:RLHF/DPO 的目标与常见实践
Outcomes
  • 能用简化例子解释“奖励/策略”如何影响行为
  • 能区分指令微调与偏好优化,并理解适用边界
Topics
  • 扩展定律与能力跃迁:数据/算力/参数的权衡
  • 调优与对齐:常见策略与风险
  • 失效模式:幻觉、提示注入、越权与数据泄露
  • 安全护栏:最小权限、过滤、审计与红队思路
Outcomes
  • 能为一个应用识别主要风险并提出可行防护
  • 能设计基本的质量评测与回归流程
Topics
  • Prompt 设计:目标、约束与结构化输出
  • 轻量微调:LoRA/PEFT 的基本思路与成本权衡
  • 工具学习:函数调用/工具选择与错误恢复
Outcomes
  • 能为常见任务设计可复用的 prompt 模板与校验策略
  • 能选择“只做 Prompt / 做微调 / 加工具”之间的合适方案
Topics
  • 多模态输入输出:图像理解、文本生成与对齐
  • 多模态对话:上下文、记忆与交互体验
  • 世界模型/模拟器:规划、预测与具身智能
Outcomes
  • 能描述多模态模型的基本能力与限制,并给出合适的应用设想
  • 能把“世界模型/具身”概念与实际系统设计关联起来