RL之路---第二弹
贝尔曼方程第一部分——return return 能够作为策略好坏的一个评估标准下面通过三种情况来说明这个问题 第一种策略 按照策略1,从 s1 出发,往下去 s3,再往右到达 s4,discounted return计算如下 gamma 是衰减系数 第二种策略第三种策略 注意,严格说来,这个return3 已经不是我们所说的return了,因为return是针对一条轨迹定义的,针对一个trajectory定义的,这里实际上是有两个轨迹,这里所做的是求取平均值,也即求expectation(期望),这个return3就是state value 显然,return1 > return3 > return2,那么对应的就是策略1最好,策略3居中,策略2最差 第二部分——return的计算 以图中的例子为例 用 v_i来表示从 s_i 出发对应的return方法一 方法二 这里的方法二说明了什么一个问题呢,从当前状态出发,return的值,就等于当前的reward + 下一状态的return *...
科学上网?NO,是怒火中烧
老版本Ubuntu科学上网须知(boom!!!)必须记录下来 绝大多数版本的clash verge或者其他形式的软件都不支持切换内核为meta了为数不多的就是极低版本的,这里就是采用的 1.4.3 版本的先来个地址 https://github.com/clash-verge-rev/clash-verge-rev/releases?page=5 直接下载对应版本的 deb ,然后 dpkg 安装安装好之后,命令框同样会报错,提示说缺少依赖,叫 lib 什么来着先不管报错,先打开软件在设置这一栏,找到 Clash 内核 这行 点击齿轮,点击授权 Clash...
看论文---第一弹
Goal-Driven Autonomous Exploration Through Deep Reinforcement ...
RL之路---第一弹
RL的基本数学原理—基本概念State 它是agent相对于当前环境的一个状态,如当前的坐标 (x,y),速度、加速度等 所有的状态构成的一个集合称之为状态空间,如下图,s1~s9构成了一个状态空间,这里是2D的,那么状态主要就是location (x, y) Action 在每一个状态下,都会有对应的一系列的动作Action,如2D平面上,在一个状态下可以采取的Action有前进、后退、左右移动、原地不动 所有的Action构成的一个集合就称之为动作空间 Action space Action 和 state 是相互依赖的,不同的状态下对应不同的动作$$A(s_i) = {a_i}$$上式意为,在状态 s_i 下,可采取的动作 a_i State transition 状态转换,在当前状态 s1 下,采取动作 a2(有概率采取动作 a2),会转换到下一状态 s2,而这个下一状态 s2,其实是不确定的,它根据采取的动作而定,而且只是有概率转移到某个状态 s$$s_1 \xrightarrow{a_2} s_2$$状态转换定义了 agent...
DL之路---第一弹
Anaconda安装1.下载安装包,直接国内镜像资源,这里下载的是 Anaconda3-2022.10-Windows-x86_64.exe 版本 https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/ 2.安装好之后配置环境变量—系统变量中的path,Anaconda是安装在E:\Anaconda3文件下的 分别添加以下三个变量E:\Anaconda3E:\Anaconda3\ScriptsE:\Anaconda3\Library\bin 3.在base环境下添加一个虚拟环境 打开 Anaconda Prompt(Anaconda3)这个命令框 列出当前所有的环境 1conda env list 创建一个虚拟环境,并指定python版本,这里新建的虚拟环境默认是会保存在Anaconda/envs/ 路径下 1conda create -n env_name python=3.9 如果不是保存在Anaconda/envs/下,就要手动指定位置了 1conda create...
autoware.universe安装后的官方demo运行
autoware.universe安装后的官方demo运行 先下载官网上的示例地图,autoware_map和autoware在同一路径下12gdown -O ~/autoware_map/ 'https://docs.google.com/uc?export=download&id=1499_nsbUbIeturZaDj7jhUownh5fvXHd'unzip -d ~/autoware_map ~/autoware_map/sample-map-planning.zip 然后刷新环境变量并运行12source install/setup.bashros2 launch autoware_launch planning_simulator.launch.xml map_path:=$HOME/autoware_map/sample-map-planning vehicle_model:=sample_vehicle sensor_model:=sample_sensor_kit 运行起来之后会打开一个叫做 rviz2 的界面, 使用 2D...