-
Notifications
You must be signed in to change notification settings - Fork 2.1k
Open
Description
作者或其他大佬你好,在第二遍浏览这一章节时,因为策略梯度适用于连续动作空间,突然想起如果是连续动作的话,是无法计算某个场景采样某个动作的概率即 pθ(a1|s1) 的,因为连续变量单点概率是0!(所以在策略梯度算法中用的好像是Πθ(a1|s1),理解为概率密度而不是概率值;在离散动作空间中可以理解为概率值)
不过在上文举出的宇宙飞船的例子中,动作确实是离散的,这样倒是可以计算。但是转念一想,例子中状态不是连续的吗?那么 p(s1) 又是如何得到?(虽然在后文中,经过变换已经不再需要 p(s)了)
作者在文中并没有相应的解释说明,所以总让人感觉有点儿别扭,读完不是很顺畅。不知道我的这个疑问是否有道理,请作者和各位大佬解惑。
Metadata
Metadata
Assignees
Labels
No labels