这是一门为数字经济专业本科生开始的新课,之前没有开设过。课程主要是围绕动态规划问题展开,把强化学习作为求解动态规划问题的一种操作方法。通过学习贝尔曼方程,了解马尔科夫决策过程的求解算法。把数据科学中的函数近似技术引入动态决策问题,把动态问题放入泛函空间的策略搜索中,寻求探索和利用的平衡。课程一方面涉及动态规划原理,另一方面涉及使用PyTorch来实现动态规划求解。多智能体决策和不完备信息动态规划会作为高等课题做初步介绍。