Porozumění log_prob za normálního rozdělení v pytorch

hlasů
1

Já jsem v současné době snaží řešit Pendulum-V0 z posilovny prostředí openAi která má nepřetržitý akční prostor. Výsledkem je, že musím použít normální distribuce ochutnat mé činy. To, co nechápu, je rozměr log_prob, pokud jej používáte:

zadejte

Jsem se očekávalo, tensor o velikosti 2 (jeden pro každý log_prob akce), ale výstup tensor velikosti (2,2).

Nicméně, při použití kategorické rozdělení pro diskrétní prostředí, ve kterém log_prob má očekávanou velikost. Proč je log_prob pro normální distribuci jinou velikost?

Položena 19/03/2020 v 21:23
zdroj uživatelem
V jiných jazycích...                            

Cookies help us deliver our services. By using our services, you agree to our use of cookies. Learn more