收敛并不稳定,有时候第二轮就收敛了,有时候50轮还在打转。
demo:
import torch
import torch.nn as nn
import torch.nn.functional as F
import numpy as np
import gym
import matplotlib.pyplot as plt
import copy
import os
import random
os.environ["KMP_DUPL…
D3QN以DQN为基础,加入double和dueling两种改进。收敛速度更快,收敛更加稳定。 从实际测试看,强化学习对初值比较敏感,所以如果一开始训练效果不好,可以重新开始训练,可能会有好效果。
demo:
import torch
import torch.nn as nn
import torch.nn.functional as F
impo…