原名:Robust Approximate Bilinear Programming for Value Function Approximation
作品简介:探索所有策略的受限空间,2)近似动态规划——或者使用全局优化框架对策略损失的价值函数界限;我们考虑 L∞ 和加权 我们提出的方法也可以基于样本,但它们需要额外的结构。在。……

资源下载
VIP免费升级VIP
显示验证码

社交账号快速登录