香港大学曹原博士报告通知
470
0
2023-07-18

【源自高峰动态】

报告时间:2023年7月19日 16:30-17:30

报告地点:西海岸校区信息南楼B103

报告题目:Understanding the Role of Training Algorithms in Over-Parameterized Learning: Insights from Case Studies

报告人简介:曹原,香港大学统计与精算学系和数学系的助理教授,博士生导师。他本科毕业于复旦大学,博士毕业于普林斯顿大学。曾担任加州大学洛杉矶分校(UCLA)博士后研究员。曹博士研究兴趣包括深度学习理论、非凸优化和高维统计学。

报告摘要:现代机器学习模型(比如大规模语言模型)通常包含大量参数。对于这种过参数化的模型,训练损失函数可能存在无限多个最小化者,不同的训练算法可能会收敛到不同的解。虽然这些解都可能在训练时产生零误差,但它们的预测误差可能截然不同。因此,要理解大型机器学习模型,必须理解训练算法对预测误差的影响。本演讲涵盖了沿着这个研究方向的一些最新研究成果:1)对随机梯度下降和Adam优化算法之间的泛化差距进行理论解释。证明了对于某些学习问题,梯度下降可以训练一个两层卷积神经网络以获得接近零的测试误差,而Adam算法只能达到常数级别的测试误差。2)展示批归一化(BN)的“隐式偏差”结果。证明了当使用批归一化进行二分类问题的线性模型学习时,梯度下降会收敛到在训练数据上的“均匀边界分类器”。这个结果还可以扩展到一类简单的线性CNN。

 


登录用户可以查看和发表评论, 请前往  登录 或  注册
SCHOLAT.com 学者网
免责声明 | 关于我们 | 用户反馈
联系我们: