d3rlpy.dataset.MultiStepTransitionPicker¶

class d3rlpy.dataset.MultiStepTransitionPicker(n_steps, gamma)[source]¶

Multi-step transition picker.

This class implements transition picking for the multi-step TD error. reward is computed as a multi-step discounted return.

Parameters:

n_steps (int) – Delta timestep between observation and net_observation.
gamma (float) – Discount factor to compute a multi-step return.

Methods

__call__(episode, index)[source]¶

Returns transition specified by index.

Parameters:

Returns:

Transition.

Return type:

Transition