跳转至

Website of a Doctor Candidate

作业二、策略梯度

作业二：策略梯度

作业说明

作业二内容：[https://rail.eecs.berkeley.edu/deeprlcourse/deeprlcourse/static/homeworks/hw2.pdf]

框架代码：[https://github.com/berkeleydeeprlcourse/homework_fall2023/tree/master/hw2]

运算开支警告

///type: warning

考虑到Google对该课程（的注册学生）提供了每人50美元的免费运算额度，该作业可能需要较长时间的运算。

项目需要完成五个文件：

./scripts/run_hw2.py
cs285/agents/pg_agent.py
cs285/networks/policies.py
cs285/networks/critics.py
cs285/infrastructure/utils.py

真正的作业从作业文件（hw2.pdf）的第三章开始，前两章是作业要求和简短复习。

策略梯度

使用神经网络作为基线模型

实现泛化的优势估计

超参数和采样效率

（附加题）让一个人形机器人学会走路

分析题

评论