斯坦福大学老师讲课

机器之心报道

编辑:Panda

斯坦福大学 2025 年春季的 CS336 课程「从头开始创造语言模型(Language Models from Scratch)」相关课程和材料现已在网上全面发布!

课程视频:https://www.youtube.com/watch?v=SQ3fZ1sAqXI&list=PLoROMvodv4rOY23Y0BoGoBGgQ1zmU_MT_课程主页:https://stanford-cs336.github.io/spring2025/

这是该课程的教职工阵容:

其中,讲师 Tatsunori Hashimoto 现为斯坦福大学计算机科学系助理教授。此前,他是斯坦福大学 John C. Duchi 和 Percy Liang 的博士后,研究机器学习模型平均性能和最差性能之间的权衡。在博士后研究之前,他在麻省理工学院攻读研究生,导师是 Tommi Jaakkola 和 David Gifford。他本科在哈佛大学学习统计学和数学,导师是 Edoardo Airoldi。他的研究成果已总计获得了超 3 万引用。

另一位讲师 Percy Liang 是斯坦福大学计算机科学系副教授,同时也是基础模型研究中心(CRFM)主任,同时也有参与以人类为中心的人工智能(HAI)、人工智能实验室、自然语言处理研究组和机器学习研究组等的研究工作。他本科毕业于 MIT,之后在该校获得工程学硕士学位,导师是 Michael Collins;之后,他在伯克利获得博士学位,导师是 Michael Jordan 和 Dan Klein;后来他进入谷歌从事博士后研究。Percy Liang 是一位引用量超过 10 万的研究大牛,我们此前也曾多次报道他的研究成果。

CS336 课程简介

CS336 课程的目标是「引导学生完成开发自己的语言模型的整个过程,从而帮助他们全面理解语言模型。」该课程借鉴了操作系统课程中从零开始创建完整操作系统的教学方法,引导学生完成语言模型创建的各个环节,包括预训练的数据收集和清理、Transformer 模型的构建、模型训练以及部署前的评估。

该课程包含 5 个单元,分别是基础、系统、扩展、数据、对齐和推理强化学习。

该课程也非常注重实践操作,因此也需要相当多的学习和开发时间。Percy Liang 也在 上简单分享了学生需要实践的内容,包括:

作业 1(使基本流程正常运行):实现 BPE 分词器、Transformer 架构、Adam 优化器,并在 TinyStories 和 OpenWebText 上训练模型。只允许使用 PyTorch 原语(不能直接调用 torch. nn. Transformer 或 torch. nn. Linear)。作业 2(让 GPU 运行起来):在 Triton 中实现 Flash Attention 2、分布式数据并行 + 优化器分片。作业 3(Scaling Law):使用 IsoFLOP 拟合 Scaling Law。为了模拟训练运行的高风险,学生会获得一个训练 API [超参数→损失] 和一个固定的计算预算,并且必须选择提交哪些运行来收集数据点。在后台,训练 API 是通过在一系列预先计算的运行之间进行插值来支持的。作业 4(数据):将 Common Crawl HTML 转换为文本,过滤(质量、有害内容、PII),删除重复数据。这是一项苦差事,却没有得到足够的重视。作业 5(对齐):实现监督微调、专家迭代、GRPO 和变体,在 Qwen 2.5 Math 1.5B 上运行 RL 以提升在 MATH 上的指标。我们也曾考虑过让学生自己实现推理(inference),但决定(可能是明智的)让人们使用 vllm。

更具体来说,CS336 课程的 5 个单元包含 19 门课。这里简单总结了该课程的目录,你可以在课程主页下载相应的材料:

课程概述和 token 化PyTorch 和资源(包括内存和计算资源)架构与超参数混合专家(MoE)GPUKernel,Triton并行化并行化Scaling Law推理Scaling Law评估数据数据对齐 ——SFT/RLHF对齐 —— 强化学习对齐 —— 强化学习客座讲座:阿里巴巴达摩院研究员、Qwen 团队技术负责人 Junyang Lin(林俊旸)客座讲座:Facebook AI 研究科学家、Llama 3 预训练负责人 Mike Lewis

另外,在考虑学习这门课程之前,你应该先具备以下能力:

熟练掌握 Python:大部分课程作业将使用 Python 完成。与大多数其他 AI 课程不同,本课程只会给学生提供极少的脚手架。你编写的代码量将至少比其他课程多一个数量级。因此,熟练掌握 Python 和软件工程至关重要。有深度学习和系统优化经验:本课程的很大一部分内容是关于如何使神经语言模型在多台机器的 GPU 上快速高效地运行。我们希望学生能够熟练掌握 PyTorch,并了解内存层次结构等基本系统概念。大学微积分、线性代数(例如 MATH 51、CME 100):你应该能够轻松理解矩阵 / 向量符号和运算。基础概率与统计(例如 CS 109 或同等课程):你应该了解概率、高斯分布、均值、标准差等基础知识。机器学习(例如 CS221、CS229、CS230、CS124、CS224N):你应该熟悉机器学习和深度学习的基础知识。

顺带一提,CS336 课程还为完成课程的学生赠送了纪念 T 恤,有如下 4 种图案。你觉得如何呢?

声明:壹贝网所有作品(图文、音视频)均由用户自行上传分享,仅供网友学习交流,版权归原作者wangteng@admin所有,原文出处。若您的权利被侵害,请联系 756005163@qq.com 删除。

本文链接:https://www.ebaa.cn/49784.html

(0)
上一篇 2025年8月7日
下一篇 2025年8月7日

相关推荐

  • 英国最好的学校是什么

    前不久,英国大学生评价网站StudentCrowd发布了2024英国最佳大学排名。 和英国其他大学排名不同, StudentCrowd排名主要根据学生评价得出,评分维度与学生就读体验息息相关,比如校园环境设施、wifi网速、俱乐部社团、学生会、就业服务等。 由于学生需要用验证大学邮箱才能登录,StudentCrowd确保了每个评价真实可靠、能真正反映学生对学…

    2024年10月23日
  • 没考上高中可以出国留学吗

    没有高中毕业证书,是否能够攻读本科?答案是可行的。在留学相关的认知中,部分家长存在一定偏差,他们普遍认为必须提供高考成绩或高中毕业证书方可申请出国留学,但事实并非如此。对于那些初中毕业后进入技工院校,或是高中未完成学业、仅拥有初中毕业证书的学生而言,申请留学同样是具备可行性的。当学生面临初中成绩不理想、未能升入高中的情况,且综合评估其自身条件后,判断其通过自…

    2025年10月29日
  • 申请纽约时装学院难吗

    见惯了国内985/211大学生找工作有多吃香,很多朋友在留学择校时就习以为常地“看排名”,认为只有QS综排50啊、美国藤校啊,这类大学的毕业生才有就业优势。 在艺术设计的世界,可不是这么论的。真想就业好,门道多了去。 有些学校产业资源爆棚,甚至可以碾压藤校 举个通俗易懂的例子,就比方说想进国内的游戏大厂,不一定非得去清华、同济。中传的游戏制作,国美的原画功底…

    2025年11月25日
  • 中原工学院录取分数线

    #安阳头条#​#高考志愿填报#​#高考#​ 本科一批理科 本科一批软件 以上数据来源于中原工学院官方网站。

    2024年8月30日
  • 首都经济贸易大学研究生部

    #在职研究生# ➽首都经济贸易大学简介 首都经济贸易大学(Capital University of Economics and Business,简称CUEB)创建于1956年,六十余年来,学校以培养"崇德尚能,经世济民"之才为己任,以经济学、管理学为特色重点学科和突出优势,各学科相互支撑、协调发展的现代化、多科性财经类大学。我校在财经…

    2023年9月27日
  • 液冷时代已来!英伟达最强AI芯片或升级散热技术 温控市场迎全面革新

    万众瞩目的英伟达顶级盛会GTC 2024即将来袭,综合多家媒体报道,英伟达预计将在本次大会上推出Blackwell架构的B100 GPU。 台湾经济日报最新报道指出,B100系列产品,相较目前的H系列,整体效能都进行了大幅提升。除了HBM内存容量和AI效能大幅提升以外,B100搭载的散热技术也进行了一番升级,从原先的风冷转为液冷。 对此,英伟达CEO黄仁勋曾…

    2024年3月13日
  • 广州国际学校学籍

    广州大学新闻与传播学院 广播电视学(国际班) 广州大学×昆士兰大学 你问我答Q&A: 问:广州大学新闻与传播学院广播电视学(国际班)项目是什么? 答:本项目依托广播电视学专业(2025软科中国大学专业排名第14位,广东省第2位),服务国家及粤港澳大湾区发展战略,旨在培养政治立场坚定、业务能力精良、作风素质过硬,适应媒体深度融合和行业创新发展,能够讲好…

    2025年7月29日
  • 副主任医师晋升条件(医学副主任医师晋升条件)

    每年下半年,各地各医院将逐步启动职称评估工作。对于医生职称评级,通常有三个标准:临床业绩、教学任务、文章课题。 按照一般规律,临床医学5年制毕业后的医学生,如果想直接就业,需要在本科毕业后一年考取临床医师执业资格证,并在医院进行三年住院医师规范培训获得住院医师规范化培训合格证书以后,可以上岗成为医生。从执业医师到住院医师(初级职称),再到主治、主管(中级职称…

    2023年10月26日
  • 广东科学职业技术学校录取分数线

    广东分数线最低的公办专科大学是:河源职业技术学院、广东农工商职业技术学院、广东汕头幼儿师范高等专科学校、广东茂名健康职业学院、广东梅州职业技术学院、广东艺术职业学院、广东职业技术学院、湛江幼儿师范专科学校、广东女子职业技术学院。这9所大学2024年在广东高考物理类、历史类的录取门槛都是最低,非常值得2025年想在广东省内读公办专科大学的同学们捡漏报考。 一、…

    2025年6月25日
  • 美国康涅狄格州闹鬼事件(美国康涅狄格州闹鬼事件电影)

    小编最近十分喜欢看恐怖电影,为此百度搜索了“最恐怖的电影”不搜不知道,一搜吓一跳,《太平间闹鬼事件》成功映入我的眼帘。 这部很合小编的口味[害羞],恐怖氛围一流,悬念效果很足,经常一惊一乍,但却很有效。故事看似老套,但却有点新意。最为关键的是根据真事改编这个喙头无疑大大提高这片子的吸引性。 带着这种好奇心,小编翻阅了各种资料,终于让我了解到这部电影真实事件的…

    2023年11月12日

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信