强化学习单智能体算法原理+项目实战
文章平均质量分 94
强化学习单智能体算法原理+项目实战,后续会持续把深度学习涉及知识原理分析给大家,让大家在项目实操的同时也能知识储备,知其然、知其所以然、知何由以知其所以然。
优惠券已抵扣
余额抵扣
还需支付
¥29.90
¥99.00
购买须知?
本专栏为图文内容,最终完结不会低于15篇文章。
订阅专栏,享有专栏所有文章阅读权限。
本专栏为虚拟商品,基于网络商品和虚拟商品的性质和特征,专栏一经购买无正当理由不予退款,不支持升级,敬请谅解。
汀、人工智能
本博客将不定期更新关于机器学习、强化学习、数据挖掘以及NLP等领域相关知识,以及分享自己学习到的知识技能,感谢大家关注!
展开
-
【强化学习原理+项目专栏】必看系列:单智能体、多智能体算法原理+项目实战、相关技巧(调参、画图等)、趣味项目实现、学术应用项目实现
【强化学习原理+项目专栏】必看系列:单智能体、多智能体算法原理+项目实战、相关技巧(调参、画图等)、趣味项目实现、学术应用项目实现原创 2023-06-02 11:51:14 · 2684 阅读 · 0 评论 -
强化学习中Ornstein-Uhlenbeck噪声什么使用最合理以及效果如何
强化学习中Ornstein-Uhlenbeck噪声什么使用最合理以及效果如何转载 2023-07-16 10:50:59 · 1419 阅读 · 1 评论 -
深度强化学习落地方法论训练篇:PPO、DQN、DDPG、学习率、折扣因子等
深度强化学习落地方法论训练篇:PPO、DQN、DDPG、学习率、折扣因子等转载 2023-07-15 10:04:44 · 3651 阅读 · 0 评论 -
深度强化学习落地方法论算法选择:DQN、DDPG、A3C、PPO、TD3
深度强化学习落地方法论算法选择:DQN、DDPG、A3C、PPO、TD3转载 2023-07-15 10:04:50 · 4453 阅读 · 0 评论 -
强化学习调参经验大集成:TD3、PPO+GAE、SAC、离散动作噪声探索、以及Off-policy 、On-policy 算法常见超参数
强化学习调参经验大集成:TD3、PPO+GAE、SAC、离散动作噪声探索、以及Off-policy 、On-policy 算法常见超参数转载 2023-07-15 10:04:57 · 5704 阅读 · 2 评论 -
深度强化学习:详解优化器加上REINFORCE算法迭代求解【组合优化】
深度强化学习:详解优化器加上REINFORCE算法迭代求解【组合优化】转载 2023-07-15 10:05:02 · 483 阅读 · 0 评论 -
深度强化学习库的设计思想带你深入了解DRL:从环境、网络更新、经验池、经验池、算法基类分离度、分布式、多进程等方面评价
深度强化学习库的设计思想带你深入了解DRL:从环境、网络更新、经验池、经验池、算法基类分离度、分布式、多进程等方面评价转载 2023-07-15 10:05:10 · 2597 阅读 · 0 评论 -
深度强化学习算法是否需要使用批归一化(Batch Norm) 或归一化,文本带你详解。
深度强化学习算法是否需要使用批归一化(Batch Norm) 或归一化,文本带你详解。转载 2023-07-15 10:05:37 · 1306 阅读 · 1 评论 -
深度强化学习经验回放(Experience Replay Buffer)的三点高性能修改建议:随机采样、减少保存的数据量、简化计算等
深度强化学习经验回放(Experience Replay Buffer)的三点高性能修改建议:随机采样、减少保存的数据量、简化计算等转载 2023-07-15 10:05:43 · 2622 阅读 · 0 评论 -
详解DDPG算法:解决对大量的超参数、随机重启、任务环境敏感问题,完成月球着陆器,双足机器人demo、以及超参数调优教学
详解DDPG算法:解决对大量的超参数、随机重启、任务环境敏感问题,完成月球着陆器,双足机器人demo、以及超参数调优教学转载 2023-07-15 10:05:50 · 4792 阅读 · 3 评论 -
强化学习算法TD3论文的翻译与解读:延迟学习、软更新、策略噪声、梯度截取
强化学习算法TD3论文的翻译与解读:延迟学习、软更新、策略噪声、梯度截取转载 2023-07-15 10:05:56 · 1625 阅读 · 0 评论 -
用 GPU 并行环境 Isaac Gym + 强化学习库 ElegantRL:训练机器人Ant,3小时6000分,最高12000分
用 GPU 并行环境 Isaac Gym + 强化学习库 ElegantRL:训练机器人Ant,3小时6000分,最高12000分原创 2023-07-14 15:31:16 · 2419 阅读 · 0 评论 -
并行环境让采样速度快两个量级:Isaac Gym提速强化学习
并行环境让采样速度快两个量级:Isaac Gym提速强化学习原创 2023-07-14 15:26:57 · 526 阅读 · 0 评论 -
如何选择深度强化学习算法:MuZero/SAC/PPO/TD3/DDPG/DQN/等算法
如何选择深度强化学习算法:MuZero/SAC/PPO/TD3/DDPG/DQN/等算法原创 2023-07-14 15:17:34 · 3066 阅读 · 0 评论 -
强化学习基础篇[3]:DQN、Actor-Critic详解
在之前的内容中,我们讲解了Q-learning和Sarsa算法。在这两个算法中,需要用一个Q表格来记录不同状态动作对应的价值,即一个大小为状态个数,动作个数[状态个数,动作个数]状态个数,动作个数的二维数组。在一些简单的强化学习环境中,比如迷宫游戏中(图1a),迷宫大小为4*4,因此该游戏存在16个state;而悬崖问题(图1b)的地图大小为 4*12,因此在该问题中状态数量为48,这些都属于数量较少的状态,所以可以用Q表格来记录对应的状态动作价值。原创 2023-06-03 20:47:52 · 840 阅读 · 0 评论 -
强化学习基础篇[2]:SARSA、Q-learning算法简介、应用举例、优缺点分析
【强化学习原理+项目专栏】必看系列:单智能体、多智能体算法原理+项目实战、相关技巧(调参、画图等、趣味项目实现、学术应用项目实现专栏详细介绍:【强化学习原理+项目专栏】必看系列:单智能体、多智能体算法原理+项目实战、相关技巧(调参、画图等、趣味项目实现、学术应用项目实现对于深度强化学习这块规划为:本专栏主要方便入门同学快速掌握强化学习单智能体|多智能体算法原理+项目实战。后续会持续把深度学习涉及知识原理分析给大家,让大家在项目实操的同时也能知识储备,知其然、知其所以然、知何由以知其所以然。声明:部分项目为原创 2023-06-02 12:49:54 · 952 阅读 · 0 评论 -
强化学习基础篇【1】:基础知识点、马尔科夫决策过程、蒙特卡洛策略梯度定理、REINFORCE 算法
【强化学习原理+项目专栏】必看系列:单智能体、多智能体算法原理+项目实战、相关技巧(调参、画图等、趣味项目实现、学术应用项目实现专栏详细介绍:【强化学习原理+项目专栏】必看系列:单智能体、多智能体算法原理+项目实战、相关技巧(调参、画图等、趣味项目实现、学术应用项目实现对于深度强化学习这块规划为:本专栏主要方便入门同学快速掌握强化学习单智能体|多智能体算法原理+项目实战。后续会持续把深度学习涉及知识原理分析给大家,让大家在项目实操的同时也能知识储备,知其然、知其所以然、知何由以知其所以然。声明:部分项目为原创 2023-06-02 12:46:10 · 910 阅读 · 0 评论 -
【九】强化学习之TD3算法四轴飞行器仿真---PaddlePaddlle【PARL】框架
课程笔记【强化学习7日打卡营-7】最后一课码源链接:https://github.com/PaddlePaddle/RLSchool原创 2021-03-23 20:06:07 · 2578 阅读 · 9 评论 -
【八】强化学习之DDPG---PaddlePaddlle【PARL】框架{飞桨}
课程笔记【强化学习7日打卡营-7】原创 2021-03-22 16:22:29 · 1722 阅读 · 0 评论 -
【七】强化学习之Policy Gradient---PaddlePaddlle【PARL】框架{飞桨}
课程笔记【强化学习7日打卡营-6】待补充...原创 2021-03-21 11:44:47 · 791 阅读 · 0 评论 -
【六】强化学习之DQN---PaddlePaddlle【PARL】框架{飞桨}
目录课程笔记【强化学习7日打卡营-5】课程笔记【强化学习7日打卡营-5】原创 2021-03-18 21:15:32 · 1216 阅读 · 0 评论 -
【五】强化学习之Sarsa、Qlearing详细讲解----PaddlePaddlle【PARL】框架{飞桨}
课程笔记【强化学习7日打卡营-4】TD更新:会找到能获取reward最大的路径。对应数学公式:下一步Q值更新当前Q值。软更新方式,设置权重a每次更新一点点,类似学习率。这样最后Q值都会逼近目标值。1.Sarsa部分代码: 建立的Q表格初始化Q表格:四列n行提取出状态s的这一行,然后得到最大Q值的下标。当对应Q值存在多个动作时,避免每次都获取第一个动作,np.where从最大q值里随机挑选一个动作。对...原创 2021-03-18 14:14:17 · 991 阅读 · 0 评论 -
【四】-强化学习入门简介---PaddlePaddlle强化学习及PARL框架
课程笔记【强化学习7日打卡营-3】1.强化学习基础介绍1.1 强化学习与其他学习之间的关系:强化学习、监督学习、非监督学习是机器学习里的三个不同的领域,都跟深度学习有交集。 监督学习寻找输入到输出之间的映射,比如分类和回归问题。 非监督学习主要寻找数据之间的隐藏关系,比如聚类问题。 强化学习则需要在与环境的交互中学习和寻找最佳决策方案。 监督学习处理认知问题,强化学习处理决策问题。监督学习是认知:学习到这个是什么,【样本独立的】强化学习是决策【样本之间有关系】强化学习...原创 2021-03-17 20:42:43 · 986 阅读 · 0 评论 -
【三】强化学习之PaddlePaddlle-Notebook、&pdb、ipdb 调试---及PARL框架
1.AI Studio基本操作-Notebook篇 --------云端运行程序当进入自己项目的详情页面时, 用户可以选择"运行"项目, 也就是准备项目环境.同样的, 当不想继续时, 可以此页面点击"停止"以终止项目.1.1 多代码编辑Notebook支持多文件编辑, 支持.py, .json, .txt, .log等格式的在线编辑, 支持部分图片类型文...原创 2021-03-16 17:06:57 · 941 阅读 · 3 评论 -
【二】强化学习之Parl基础命令--PaddlePaddlle及PARL框架{飞桨}
课程笔记【强化学习7日打卡营-2】翻译 2021-03-12 20:34:25 · 1618 阅读 · 0 评论 -
【一】飞桨paddle【GPU、CPU】安装以及环境配置+python入门教学
目录、【参考博客】1.PaddlePaddlle强化学习及PARL框架【参考博客】https://blog.csdn.net/qq_40089637/article/details/108315643?utm_medium=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-2.baidujs&dist_request_id=1328603.58385.16151899216504563&原创 2021-03-10 10:10:09 · 18699 阅读 · 12 评论 -
强化学习(一)模型基础
1.上面的大脑代表我们的算法执行个体,我们可以操作个体来做决策,即选择一个合适的动作(Action)AtAt。下面的地球代表我们要研究的环境,它有自己的状态模型,我们选择了动作AtAt后,环境的状态(State)会变,我们会发现环境状态已经变为St+1St+1,同时我们得到了我们采取动作AtAt的延时奖励(Reward)Rt+1Rt+1。然后个体可以继续选择下一个合适的动作,然后环境的状态又会变,又有新的奖励值。。。这就是强化学习的思路。 那么我们可以整理下这个思路里面出现的强化学习要素。原创 2020-12-18 15:55:27 · 813 阅读 · 2 评论