A multi-step on-policy deep reinforcement learning method assisted by off-policy policy evaluation

Huaqing Zhang, Hongbin Ma^*, Bemnet Wondimagegnehu Mersha, Ying Jin

^*此作品的通讯作者

自动化学院

Beijing Institute of Technology

科研成果: 期刊稿件 › 文章 › 同行评审

Computer Science

Social Sciences

Chemical Engineering

Engineering