Skip to content

关于策略梯度概率的描述 #176

@patrickstar77

Description

@patrickstar77

Image
作者或其他大佬你好,在第二遍浏览这一章节时,因为策略梯度适用于连续动作空间,突然想起如果是连续动作的话,是无法计算某个场景采样某个动作的概率即 pθ(a1|s1) 的,因为连续变量单点概率是0!(所以在策略梯度算法中用的好像是Πθ(a1|s1),理解为概率密度而不是概率值;在离散动作空间中可以理解为概率值)
不过在上文举出的宇宙飞船的例子中,动作确实是离散的,这样倒是可以计算。但是转念一想,例子中状态不是连续的吗?那么 p(s1) 又是如何得到?(虽然在后文中,经过变换已经不再需要 p(s)了)

作者在文中并没有相应的解释说明,所以总让人感觉有点儿别扭,读完不是很顺畅。不知道我的这个疑问是否有道理,请作者和各位大佬解惑。

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Type

    No type

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions