自动驾驶-控制算法（二）

本文主要记录线性二次型调节器（Linear quadratic regulator，LQR）原理和推导过程，并使用基于运动学模型的LQR实现车辆路径跟踪。提示：以下是本篇文章正文内容，下面案例可供参考。

Shoulderc

3055人浏览 · 2024-12-19 09:08:36

Shoulderc · 2024-12-19 09:08:36 发布

文章目录

前言
一、全状态反馈控制系统
二、LQR控制器
- 2.1 连续时间
- 2.2 离散时间
三、基于车辆运动学模型的LQR优化
参考文献

前言

本文主要记录线性二次型调节器（Linear quadratic regulator，LQR）原理和推导过程，并使用基于运动学模型的LQR实现车辆路径跟踪。

提示：以下是本篇文章正文内容，下面案例可供参考

一、全状态反馈控制系统

假设有一个线性系统用状态向量表示：
$\begin{align} \dot{x} =Ax+Bu \\ \dot{y} =Cx+Du \\ \end{align}$
其中， $\in R^n$ ， $\in R^m$ 。

设计状态反馈控制器
$\begin{align} u = -Kx \end{align}$

将式（3）带入系统状态方程中，可得：
$\begin{align} \dot{x}=(A-BK)x=A_cx \end{align}$

设定系统中的各个状态量都可知，式（1）所示的开环系统，传递函数的极点就是系统矩阵A的特征值。式（4）所示的闭环系统，通过配置反馈矩阵 $K$ ，可以使得闭环系统达到所期望的系统状态。

二、LQR控制器

LQR（Linear Quadratic Regulator，线性二次型调节器）是一种用于解决最优控制问题的数学方法，特别是在系统可以表示为线性方程，且性能指标可以表示为二次型的情况下。LQR通常用于设计线性系统的控制器，使得系统从一个初始状态转移到期望的最终状态，同时最小化一个给定的性能指标。

2.1 连续时间

LQR目标是找到一组控制量 $u_0, u_1, ...$ ，使得 $x_0, x_1, ...$ 能够快速、稳定地趋近于零，并保持平衡（系统达到稳定状态），同时控制量 $u_0, u_1, ...$ 尽可能小。
这是一个典型的多目标优化最优控制稳定，选取目标函数为
$\begin{align} J=\frac{1}{2} \int_{0}^{\infty } (x^TQx + u^TRu)dt \end{align}$
其中，Q、R分别是需要设计的半正定矩阵和正定矩阵。Q矩阵元素变大意味着希望状态量能够快速趋近于零，R矩阵元素变大意味着希望控制输入能够尽可能小，系统的状态衰减将变慢。Q、R的设置需结合具体的实际应用场景来调节。

将 $u = - K x$ 带入代价函数，可得：
$\begin{align} J=\frac{1}{2} \int_{0}^{\infty } x^T(Q + K^TRK)xdt \end{align}$
假设存在一个常量矩阵 $P$ ，使得：
$\begin{align} \frac{d}{dt}x^TPx=-x^T(Q + K^TRK)x \end{align}$
将式（7）带入式（6）可得：
$\begin{align} J=-\frac{1}{2} \int_{0}^{\infty } \frac{d}{dt}(x^TPx) dt=-\frac{1}{2}x^TPx|_0^\infty =\frac{1}{2}x^T(0)Px(0) \end{align}$
上式当 $\to \infty$ 时，系统状态向量 $x (t)$ 趋近于0。
将式（7）左边微分展开，可得：
$\begin{align} \dot x^TPx + x^TP\dot x+x^T(Q + K^TRK)x = 0 \end{align}$
将 $\dot x=(A-BK)x$ 带入上式并整理可得：
$\begin{align} x^T(A^TP - K^TB^TP+PA-PBK+Q+K^TRK)x = 0 \end{align}$
若上式有解，则括号中的部分必须为零，即：
$\begin{align} A^TP - K^TB^TP+PA-PBK+Q+K^TRK = 0 \end{align}$
令 $K=R^{-1}B^TP$ ，上式可化简为：
$\begin{align} A^TP +PA-PBR^{-1}B^TP+Q= 0 \end{align}$
式（12）中， $A, B, Q, R$ 都是已知量，通过上式可求解出 $P$ ，式（12）就是著名的连续时间代数Riccati方程。
连续时间下的LQR算法步骤如下：
1.选择参数矩阵 $Q, R$ （分别满足半正定和正定）
2.根据公式（12）求解Riccati方程得到矩阵P
$\begin{aligned} A^TP +PA-PBR^{-1}B^TP+Q= 0 \end{aligned}$
3. 根据 $P$ 计算增益 $K=R^{-1}B^TP$
4. 计算控制量 $u^{*} = -Kx$

2.2 离散时间

假设一个离散系统表示为
$\begin{align} \mathrm{x}_{k+1}= A \mathrm{x}_{k+1}+B \mathrm{u}_{k} \end{align}$
离散LQR代价函数为：
$\begin{align} J= \sum_{k=0}^{N-1} (\mathrm{x}_k^T Q \mathrm{x}_k+\mathrm{u}_k^TR\mathrm{u}_k)+\mathrm{x}_N^TQ_f\mathrm{x}_N \end{align}$
其中， $Q$ 为状态代价矩阵， $Q_f$ 为最终状态代价矩阵， $R$ 为输入代价矩阵， $N$ 为时间范围。
求解离散LQR的方法有最小二乘法、动态规划算法等，在此不做详细介绍，详情参考基础算法 - LQR - 离散时间有限边界

根据参考链接中动态规划算法的求解结果，给出离散LQR的求解步骤：

确定迭代范围 $N$ ，设置迭代初始值 $P_N=Q_f$ ；
循环迭代， $k = N, ..., 1$
$\begin{aligned} P_{k-1}=Q+A^TP_{k}A - A^TP_{k}B(R+B^TP_{k}B)^{-1}B^TP_{k}A \end{aligned}$
反馈系数 $K_k=-(R+B^TP_{k+1}B)^{-1}B^TP_{k+1}A$
优化的控制量 $\mathrm{u}_k = K_k\mathrm{x}_t$

三、基于车辆运动学模型的LQR优化

采用以车辆后轴中心为原点的运动学模型
在这里插入图片描述
图中的部分符号和定义如下：
$A 、 B$ ：车辆前轴、后轴中心点；
$P$ ：规划路径中距后轴中心最近的点；
$L$ ：车辆轴距；
$v$ ：车辆后轴中心处的速度；
$\dot s$ ：目标点处的速度；
$\psi$ ：车辆航向角；
$\psi_t$ ： $P$ 点处的航向角；
$\delta_f$ ：车辆的前轮转角；
$\psi_e$ ： $P$ 点处航向角与车辆航向角之间的偏差；
$e_y$ ：前轴中线点到 $P$ 点切线方向的偏差；
$d$ ：后轴中心点到目标点的距离；

对应的运动学模型如下：
$\begin{align} \dot x = v \cdot \cos \psi \\ \dot y = v \cdot \sin \psi \\ \dot \psi = \frac{v \cdot \tan \delta_f}{L} \end{align}$
状态量为： $X=[x,y,\psi]^T$ ，控制量为： $\mathrm{u}=[v,\delta]^T$ 。
将上述模型在参考点 $X_r=[x_r,y_r,\psi_r]$ 处利用泰勒级数展开线性化：
$\begin{gather} \dot X =f(X, u) \\ \dot X =\dot X_{r} + f^{'}_{X}(X_{r},u_{r})[X-X_{r}]+f^{'}_{u}(X_{r},u_{r})[u-u_{r}]\\ \end{gather}$
可得状态误差方程：

$\begin{align} \dot{\tilde{X}} =A\tilde{X}+B\tilde{\mathrm{u}} \end{align}$
其中：
$\tilde{X}=\begin{bmatrix} x - x_r \\ y - y_r \\ \psi - \psi_r \end{bmatrix}$

$\tilde{\mathrm{u}}=\begin{bmatrix} v - v_r \\ \delta - \delta_r \end{bmatrix}$

$A=\begin{bmatrix} 0& 0& -v_r\sin \psi _r\\ 0& 0& v_r\cos \psi _r\\ 0& 0& 0 \end{bmatrix}$

$B=\begin{bmatrix} \cos \psi _r& 0 \\ \sin \psi _r& 0 \\ \frac{\tan \delta _r}{L} & \frac{v_r}{L\cdot \cos ^2 \delta _r} \end{bmatrix}$

将上述方程利用前向欧拉法进行离散化可得：
$\begin{align} \tilde{X}(k+1) = \tilde{A}\tilde{X}(k)+\tilde{B}\tilde{\mathrm{u}}(k) \end{align}$
其中：
$\tilde{X}(k)=\begin{bmatrix} x(k) - x_r \\ y(k) - y_r \\ \psi(k) - \psi_r \end{bmatrix}$

$\tilde{\mathrm{u}}(k)=\begin{bmatrix} v(k) - v_r \\ \delta(k) - \delta_r \end{bmatrix}$
$\tilde{A}=A\cdot T+I=\begin{bmatrix} 1& 0& -v_r \cdot T \cdot \sin \psi _r \\ 0& 1& v_r \cdot T \cdot \cos \psi _r \\ 0& 0& 1 \end{bmatrix}$

$\tilde{B}=B\cdot T=\begin{bmatrix} T\cos \psi _r & 0 \\ T\sin \psi _r & 0 \\ \frac{T \cdot \tan \delta _r}{L} & \frac{v_r \cdot T}{L\cdot \cos ^2 \delta _r} \end{bmatrix}$

式中， $T$ 为采样步长， $I$ 为单位矩阵，维度与矩阵 $A$ 一致。

采用LQR进行控制量求解的步骤包括：

确定迭代范围 $N$ ，预设精度 $e p s$ ；
设置 $Q 、 R$ 矩阵，设置迭代初始值为 $P_N=Q$ ；
根据车辆状态信息、目标点计算偏差方程中的 $A 、 B$ 矩阵(对应上述偏差方程中 $\tilde{A}、\tilde{B}$ )；
循环迭代， $k = N, ..., 1$
$\begin{aligned} P_{k-1}=Q+A^TP_{k}A - A^TP_{k}B(R+B^TP_{k}B)^{-1}B^TP_{k}A \end{aligned}$
若 $P_{k-1} - P_{k}||<eps$ ，结束循环；
计算反馈系数 $K=-(R+B^TP_{k}B)^{-1}B^TP_{k}A$
优化的控制偏差量为 $\tilde{\mathrm{u}} = K\tilde{X}$
进一步计算得控制量 $\mathrm{u}$ 。