最佳答案
OpenAI 的 REINFORCE 和演员评论强化学习的例子有以下代码:
加强 :
policy_loss = torch.cat(policy_loss).sum()
loss = torch.stack(policy_losses).sum() + torch.stack(value_losses).sum()
一种是使用 torch.cat
,另一种是使用 torch.stack
,用于类似的用例。
据我所知,医生并没有明确区分两者。
我很乐意知道这些函数之间的区别。