联系我们
- 地 址:北京市海淀区北四环西路9号 ,主 营:人脸识别,活体检测,身份证识别,银行卡识别,名片识别,车牌识别,OCR识别等及智能识别技术。
- 电 话:13146317170 廖经理
- 传 真:
- 邮 箱:398017534@qq.com
人工智能之强化学习
人工智能之强化学习
一、什么是强化学习
强化学习是机器学习里面的一个分支,是一个智能体经过不时的与环境产生互动而不时改良它的行为,从而积聚最大奖励的一个决策过程。
智能体在完成某项任务时,首先经过动作A与四周环境停止交互,在动作A和环境的作用下,智能领会产生新的状态,同时环境会给出一个立刻报答。如此循环下去,智能体与环境停止不时地交互从而产生很多数据。强化学习算法应用产生的数据修正本身的动作战略,再与环境交互,产生新的数据,并应用新的数据进一步改善本身的行为,经过数次迭代学习后,智能体能最终地学到完成相应任务的最优动作(最优战略)。
它主要包含四个元素,agent,环境状态,行动,奖励,强化学习的目的就是取得最多的累计奖励。
输入与输出
记住,reinforcement learning 的 输入 是:
状态 (States) = 环境,例如迷宫的每一格是一个 state
动作 (Actions) = 在每个状态下,有什么行动是允许的
奖励 (Rewards) = 进入每个状态时,能带来正面或负面的 价值 (utility)
而输出就是:
计划 (Policy) = 在每个状态下,你会选择哪个行动? 战略链
於是这 4 个元素的 tuple (S,A,R,P)就构成了一个强化学习的系统。 在笼统代数中我们常常用这 tuple 的办法去定义系统或构造。
二、为什么要强化学习(强化学习可以处理哪些问题)
首先深度加强学习有两点十分重要的特性:
1. 任何能够笼统成环境,状态,行为,奖励的问题,都能够用这个算法停止求解。
2. 不需求人工规则设定,能够将原始的图像当作状态。
deepmind所发表的深度加强学习,就是不停的对游戏画面”截图”,然后作为输入信号给程序,从而让程序学习玩恣意的游戏,不需求任何人工参与。
能够看到但凡任务导向型,并且目的能够被奖惩函数描写的,均能够应用深度加强学习来处理,所以其应用范围还是蛮广的
游戏战略
机器人控制
无人驾驶
探究环境
学会走路
加强学习是机器学习中一个十分活泼且有趣的范畴,相比其他学习办法,加强学习更接近生物学习的实质,因而有望取得更高的智能,这一点在棋类游戏中曾经得到表现。Tesauro(1995)描绘的TD-Gammon程序,运用加强学习成为了世界级的西洋双陆棋选手。这个程序经过150万个自生成的对弈锻炼后,曾经近似到达了人类最佳选手的程度,并在和人类顶级高手的比赛中获得40 盘仅输1盘的好成果
强化学习是机器学习里面的一个分支,是一个智能体经过不时的与环境产生互动而不时改良它的行为,从而积聚最大奖励的一个决策过程。
智能体在完成某项任务时,首先经过动作A与四周环境停止交互,在动作A和环境的作用下,智能领会产生新的状态,同时环境会给出一个立刻报答。如此循环下去,智能体与环境停止不时地交互从而产生很多数据。强化学习算法应用产生的数据修正本身的动作战略,再与环境交互,产生新的数据,并应用新的数据进一步改善本身的行为,经过数次迭代学习后,智能体能最终地学到完成相应任务的最优动作(最优战略)。
它主要包含四个元素,agent,环境状态,行动,奖励,强化学习的目的就是取得最多的累计奖励。
输入与输出
记住,reinforcement learning 的 输入 是:
状态 (States) = 环境,例如迷宫的每一格是一个 state
动作 (Actions) = 在每个状态下,有什么行动是允许的
奖励 (Rewards) = 进入每个状态时,能带来正面或负面的 价值 (utility)
而输出就是:
计划 (Policy) = 在每个状态下,你会选择哪个行动? 战略链
於是这 4 个元素的 tuple (S,A,R,P)就构成了一个强化学习的系统。 在笼统代数中我们常常用这 tuple 的办法去定义系统或构造。
二、为什么要强化学习(强化学习可以处理哪些问题)
首先深度加强学习有两点十分重要的特性:
1. 任何能够笼统成环境,状态,行为,奖励的问题,都能够用这个算法停止求解。
2. 不需求人工规则设定,能够将原始的图像当作状态。
deepmind所发表的深度加强学习,就是不停的对游戏画面”截图”,然后作为输入信号给程序,从而让程序学习玩恣意的游戏,不需求任何人工参与。
能够看到但凡任务导向型,并且目的能够被奖惩函数描写的,均能够应用深度加强学习来处理,所以其应用范围还是蛮广的
游戏战略
机器人控制
无人驾驶
探究环境
学会走路
加强学习是机器学习中一个十分活泼且有趣的范畴,相比其他学习办法,加强学习更接近生物学习的实质,因而有望取得更高的智能,这一点在棋类游戏中曾经得到表现。Tesauro(1995)描绘的TD-Gammon程序,运用加强学习成为了世界级的西洋双陆棋选手。这个程序经过150万个自生成的对弈锻炼后,曾经近似到达了人类最佳选手的程度,并在和人类顶级高手的比赛中获得40 盘仅输1盘的好成果
上一条:计算机视觉与深度学习
下一条:深度学习知识总结