跳转至

作业二:策略梯度

作业说明

作业二内容:[https://rail.eecs.berkeley.edu/deeprlcourse/deeprlcourse/static/homeworks/hw2.pdf]

框架代码:[https://github.com/berkeleydeeprlcourse/homework_fall2023/tree/master/hw2]

运算开支警告

///type: warning

考虑到Google对该课程(的注册学生)提供了每人50美元的免费运算额度,该作业可能需要较长时间的运算。

项目需要完成五个文件:

  • ./scripts/run_hw2.py
  • cs285/agents/pg_agent.py
  • cs285/networks/policies.py
  • cs285/networks/critics.py
  • cs285/infrastructure/utils.py

真正的作业从作业文件(hw2.pdf)的第三章开始,前两章是作业要求和简短复习。

策略梯度

使用神经网络作为基线模型

实现泛化的优势估计

超参数和采样效率

(附加题)让一个人形机器人学会走路

分析题

评论