当前位置:网站首页>学习笔记3--规划控制中的机器学习基本思想
学习笔记3--规划控制中的机器学习基本思想
2022-07-17 14:21:00 【FUXI_Willard】
本系列博客包括6个专栏,分别为:《自动驾驶技术概览》、《自动驾驶汽车平台技术基础》、《自动驾驶汽车定位技术》、《自动驾驶汽车环境感知》、《自动驾驶汽车决策与控制》、《自动驾驶系统设计及应用》。
此专栏是关于《自动驾驶汽车决策与控制》书籍的笔记.
3.规划控制中的机器学习基本思想
机器学习算法大致分为:监督学习(如回归、分类),非监督学习(如聚类、降维)和强化学习;
3.1 强化学习
- 强化学习关注的是智能体如何在环境中采取一系列行为,从而获得最大的累积回报;一个智能体应该知道在什么状态下应该采取什么行为;强化学习是从环境状态到动作的映射的学习,通常把这个映射称为策略(Policy);
- 强化学习常用术语:
- Agent:指训练中的个体,即训练的算法和参数的集合;
- Environment:指Agent所处的环境;
- Episode:指一个完整的训练阶段;从一次训练开始,到这次训练成功或失败结束,是一个Episode;
- Step:指一个Episode当中的操作,每采取一次操作,就是一个Step;
- State:指Agent在每个时刻所面临的状态;
- Action:指采取的操作究竟是什么;
- Value:指当前时刻所能采取的各个动作所具有的价值;
- 策略(Policy)
- Policy定义了Agent在特定的时间、特定的环境下的行为方式,可以视为从环境状态到行为的映射,常用 π \pi π来表示;
- Policy分为两类:确定性的Policy(Deterministic Policy), a = π ( s ) a=\pi(s) a=π(s);随机性的Policy(Stochastic Policy), π ( a ∣ s ) = P [ A t = a ∣ S t = t ] \pi(a|s)=P[A_t=a|S_t=t] π(a∣s)=P[At=a∣St=t],其中, t t t是时间点, t = 0 , 1 , 2 , … , S t ∈ S t=0,1,2,\dots,S_t\in{S} t=0,1,2,…,St∈S, S S S是环境状态的集合, S t S_t St代表时刻 t t t的状态, A t ∈ A ( S t ) A_t\in{A}(S_t) At∈A(St), A A A是在状态 S t S_t St下的行为的集合, A t A_t At代表时刻 t t t的行为;
- 回报信号(Reward Signal)
- Reward是一个标量值,是每个Time Step中环境根据Agent的行为返回给Agent的信号,Reward定义了在该情境下执行该行为的好坏,Agent可以根据Reward来调整自己的Policy,Reward常用R表示;
- 值函数(Value Function)
- Reward定义的是当下的收益,而Value Function定义的长期的收益,可以看作是累计的Reward,常用v表示;
3.2 监督学习与非监督学习
- 监督学习是从一个已经标记的训练集中进行学习,训练集中每一个样本的特征可以视为是对该情景的描述,而其标记可以视为是应该执行的正确的动作;
- 非监督学习的目的视为从一堆未标记样本中发现隐藏的结构;
注:仅为简述,请自行详细学习机器学习内容。
边栏推荐
- Accident caused by the combination of annotation transaction + distributed lock at the read committed level -- disorder of activity purchase opportunities
- E-commerce sales data analysis and prediction (date data statistics, daily statistics, monthly statistics)
- Efficient space-based computing technology for satellite communication in 6g
- ROS duplicate name
- Cmake常用命令(五)
- An error, uncaught typeerror: modalfactory is not a constructor
- LeetCode 2319. Judge whether the matrix is an X matrix
- Data Guard Broker的概念和Data Guard Broker的配置过程
- XSS. haozi. Me brush questions
- zabbix代理服务器配置
猜你喜欢
Configuration of vscode+unity3d
常用getshell工具的下载
Tencent cloud server uses image to deploy WordPress personal website!
LeetCode 558. Intersection of quadtree
SPI服务发现机制
Unity3d 读取mpu9250 例子原代码
LeetCode 558. 四叉树交集
早期单片机加密的一些方法 【评论区领取资料】
一个报错, Uncaught TypeError: ModalFactory is not a constructor
Un modèle de détection par défaut basé sur le réseau neuronal évolutif rapide dans le contrôle de la qualité des produits - lire les notes
随机推荐
E-commerce sales data analysis and prediction (date data statistics, daily statistics, monthly statistics)
今日睡眠质量记录79分
Environment variable configuration of win10
Tier defect detection using full revolutionary network
A curated list of awesome Qt and QML
The concept of data guard broker and the configuration process of data guard broker
Introduction of database lock, shared with InnoDB, exclusive lock
466-82(3、146、215)
JVM hook hooks function
火箭大机动运动欧拉角解算的探讨
Definable 6G security architecture
Cmake常用命令(五)
IP SAN has an independent file system. After the application server accesses the IP SAN through the network sharing protocol, it can read and write the files in the file system
机器人开发--机器人资料汇总
Summary of port mirroring methods with VDS or NSX under vSphere
Mysql优化系列之limit查询
Mysql索引的类型(单列索引、组合索引 btree索引 聚簇索引等)
性能优化之@Contended减少伪共享
Powercli script performance optimization
Huawei machine test: number of continuous licensing