查看“隨機控制”的源代码
←
隨機控制
跳转到导航
跳转到搜索
因为以下原因,您没有权限编辑本页:
您请求的操作仅限属于该用户组的用户执行:
用户
您可以查看和复制此页面的源代码。
'''隨機控制'''(stochastic control)或'''隨機[[最优控制]]'''(stochastic optimal control)是[[控制理论]]中的一個領域,是針對有[[不確定性]]的系統進行控制,不確定性可能是在量測上,也有可能是因為[[雜訊]]的影響。系統設計者會假設影響狀態變數的隨機雜訊,(以[[贝叶斯概率]]的觀點來看)其機率分布是已知的。隨機控制的目的是在雜訊存在的情形下,設計受控變數的時間軌跡,在最小成本的情形下(其成本可能會適有適當的定義)使系統完成預期的控制任務<ref>[http://www.answers.com/topic/stochastic-control-theory?cat=technology Definition from Answers.com]</ref>。隨機控制可能是配合離散時間系統,也可能是連續時間系統。 ==確定性等效== 隨機控制中最常被探討的控制器是[[線性平方高斯控制]](LQG控制),其模型為線性的,目標函數的期望值為二次性,而擾動是純疊加性的。若是離散時間集中式系統,其不確定性是純疊加性,有一個基本的特性為「確定性等效性質」(certainty equivalence property)<ref name="Chow">{{cite book |last=Chow |first=Gregory P. |year=1976 |title=Analysis and Control of Dynamic Economic Systems |location=New York |publisher=Wiley |isbn=0-471-15616-7 }}</ref>:其最佳控制的解和沒有疊加性擾動下的解一樣。所有線性系統方程、二次目標函數、雜訊為純疊加性的集中式系統中,確定性等效性質都會成立,二次目標函數的假設是讓(配合確定性等效性質)的最佳控制律是控制器觀測值的線性函數。 若有任何和上述假設不同的地方:非線性狀態方程、非二次目標函數、{{link-en|乘數不確定性|Multiplier uncertainty}}或是系統為{{le|分散式控制系統|Distributed control system}}都會讓確定性等效性質不成立。例如在分散式系統中的[[Witsenhausen反例]]就是說明確定性等效性質在分散式系統中不成立。 ==離散時間系統== 在離散時間系統中,控制器會在每個時間週期觀測狀態變數(也可能包括估測雜訊)。其目標可以針對所有時間內的非線性(可能是二次的)目標函數計算不同時間期望值的加權和,也可以只針對最後時間的目標函數進行最佳化。每個時間區間內會產生新的估測值,依最佳化的方式調整控制變數。找目前時間最佳解的作法是後向迭代計算[[線性平方高斯控制]](矩陣Riccati方程),從最後的時間一直倒退迭代到目前時間。 考慮離散時間系統,其傳遞矩陣或控制響應矩陣中的參數有不確定性(因此狀態變數的目前值會有變化),但仍然是線性狀態函數以及二次性目標函數,仍然可以用每一個時間週期的解,用後向迭代的方式求解Riccati方程,不過可能沒有確定性等效的特性<ref name="Chow"/><sup>ch.13</sup><ref name=Turnovsky>{{cite journal |last=Turnovsky |first=Stephen |title=Optimal Stabilization Policies for Stochastic Linear Systems: The Case of Correlated Multiplicative and Additive disturbances |journal=Review of Economic Studies |volume=43 |issue=1 |year=1976 |pages=191–94 |doi= 10.2307/2296614}}</ref>。若離散時間系統的目標函數不是二次性的,但是只要處理加性不確定性,也可以進行隨機控制,不過會比較複雜<ref>{{cite journal |last=Mitchell |first=Douglas W. |title=Tractable Risk Sensitive Control Based on Approximate Expected Utility |journal=Economic Modelling |year=1990 |volume=7 |issue=2 |pages=161–164 |doi=10.1016/0264-9993(90)90018-Y }}</ref>。 ===例子=== 以下是一個典型的離散時間隨機線性二次控制問題,要最小化<ref name="Chow" />{{rp|ch. 13;}}<ref name=Turnovsky/><ref>{{cite journal |last=Turnovsky |first=Stephen |year=1974 |title=The stability properties of optimal economic policies |journal=American Economic Review |volume=64 |issue=1 |pages=136–148 |jstor=1814888 }}</ref> :<math>\text{E}_1\sum_{t=1}^S [y_t^T Qy_t + u_t^T Ru_t]</math> 其中E<sub>1</sub>為在''y''<sub>0</sub>條件下的[[期望值]]運算子,上標''T''表示是[[转置矩阵]],''S''為時間區間,其狀態方程如下 :<math>y_t = A_ty_{t-1} + B_tu_t,</math> 其中''y''是''n'' × 1的可觀察狀態變數向量,''u''是''k'' × 1的控制變數向量,''A''<sub>''t''</sub>是時間''t''時的[[轉移矩陣|隨機''n'' × ''n''狀態轉移矩陣]]的實現,''B''<sub>''t''</sub>是時間t時的隨機''n'' × ''k''控制乘數矩陣的實現,''Q'' (''n'' × ''n'')和''R'' (''k'' × ''k'')是已知的正定費用矩陣。假設''A''和''B''的每個元素都是在時間上聯合的[[独立同分布]],因此期望值運算不用考慮時間的條件。 可以用[[貝爾曼方程]]得到每個時間的最佳控制解<ref name="Chow" />{{rp|ch. 13}} :<math>u_t^*=-[\text{E}(B^TX_tB+R)]^{-1}\text{E}(B^TX_tA)y_{t-1},</math> 配合對稱正定cost-to-go矩陣''X'',從<math>X_S = Q</math>開始,以倒退時間方式迭代,方程式為 : <math> X_{t-1} = Q+\text{E}[A^TX_tA] - \text{E}[A^TX_tB][\text{E}(B^TX_tB+R)]^{-1}\text{E}(B^TX_tA), \,</math> 這個就是此問題離散時間下的動態Riccati方程。有關矩陣''A''和''B''中未知參數所需要知道的資訊只有每個矩中每個元素的期望值、方差,同個矩陣不同元素的共變異數,以及不同矩陣中元素的共變異數。 若在狀態方程中有平均值為0、[[独立同分布|獨立且相同分佈]](i.i.d.)的加性擾動出現,只要和矩陣''A''和''B''的元素沒有關係,此擾動不會影響最佳方程。假如擾動和矩陣有關,每個時間的最佳控制解會包括額外的加性常數向量。若加性常數向量出現在狀態方程中,則每個時間的最佳控制解會再包括額外的加性常數向量。 ''X''的穩態特徵若存在,會和''S''延伸到無限大的的無限時間問題相關。可以用重覆迭代動態方程中的''X'',一直到收斂為止來計算,此時的動態方程中的''X''就不用有關時間的下標了。 ==連續時間== 若模型是連續時間下的系統,控制器知道系統在每一個時間下的狀態。其目標可能是最大化狀態變數凹函數(Concave Function)的在時間區間0到最後時間T之間的積分。隨著時間的演進,會持續的觀測到新的值,也會依最佳化的方式來調整控制變數。 ==隨機模型預測控制== 在文獻中,有二種隨機系統的模型預測控制:強健模型預測控制(Robust model predictive control)及隨機模型預測控制(Stochastic Model Predictive Control,SMPC)。強健模型預測控制是較保守的方式,在最佳化過程中會考慮最差的情形,不過此方式和其他強健控制類似,會讓整個控制器的性能變差,只適用不確定性有明確範圍在系統。而隨機模型預測控制是用軟性的限制。是用機率的不等式來讓違反限制的機率不會超過一定範圍<ref>{{cite journal|last1=Hashemian|last2=Armaou|title=Stochastic MPC Design for a Two-Component Granulation Process|date=2017|pages=4386–4391|arxiv=1704.04710| journal = IEEE Proceedings|bibcode=2017arXiv170404710H}}</ref>。 ===金融的應用=== 在金融領域連續系統的研究中,隨機微分方程的狀態變數多半是財富或是淨值,控制變數是不同時間下各資產的配置情形。給定任一時間下的{{link-en|資產配置|asset allocation}},財富變化的決定因素是資產的隨機收益以及無風險資產的利率。隨機控制的領域在1970年代開始大幅發展,有不少人應用在金融上。Robert Merton用隨機控制來研究安全資產以及風險資產的{{link-en|最佳投資組合|optimal portfolio}}<ref>{{cite book |first=Robert |last=Merton |title=Continuous Time Finance |location= |publisher=Blackwell |year=1990 }}</ref>。{{link-en|Merton投資組合問題|Merton's portfolio problem}}以及[[布莱克-舒尔兹模型]]改變了金融文獻的特質。有影響力的相關數學教科書包括{{link-en|Wendell Fleming||Wendell FlemingFleming}}及[[Raymond Rishel|Rishel]]合著的教科書<ref>{{cite book |first=W. |last=Fleming |first2=R. |last2=Rishel |title=Deterministic and Stochastic Optimal Control |location= |publisher= |year=1975 |isbn=0-387-90155-8 |url=https://books.google.com/books?id=kUrvAAAAMAAJ }}</ref>、以及Fleming和{{link-en|Halil Mete Soner|Halil Mete Soner|Soner}}合著的教科書<ref>{{cite book |first=W. |last=Fleming |first2=M. |last2=Soner |title=Controlled Markov Processes and Viscosity Solutions |location= |publisher=Springer |year=2006 |isbn= }}</ref>。[[Jerome Stein]]將這些技巧應用在[[2007年–2008年環球金融危機]]<ref name=stein>{{cite book |first=J. L. |last=Stein |title=Stochastic Optimal Control and the US Financial Crisis |location= |publisher=Springer-Science |year=2012 }}</ref>。 在最後日期''T''的淨值期望值對數的最大值,和財富成份的隨機過程有關。在連續系統中,[[伊藤引理]]是主要分析工具。若是要探討在時間(0,''T'')內凹函數積分的最大值,會使用動態規劃。這裡沒有類似較舊的文獻的確定等效關係,因為控制變數的係數(所選資產份額所獲得的回報)也是隨機性的。 ==相關條目== * {{le|隨機規劃|Stochastic programming}} * [[随机过程]] * [[控制理论]] * {{link-en|乘数不确定性|Multiplier uncertainty}} * {{link-en|隨機排程|Stochastic scheduling}} == 参考文献 == {{Reflist|30em}} [[Category:控制理论]] [[Category:隨機控制| ]] [[Category:随机过程]]
本页使用的模板:
Template:Cite book
(
查看源代码
)
Template:Cite journal
(
查看源代码
)
Template:Le
(
查看源代码
)
Template:Link-en
(
查看源代码
)
Template:Reflist
(
查看源代码
)
Template:Rp
(
查看源代码
)
返回
隨機控制
。
导航菜单
个人工具
登录
命名空间
页面
讨论
不转换
查看
阅读
查看源代码
查看历史
更多
搜索
导航
首页
最近更改
随机页面
MediaWiki帮助
工具
链入页面
相关更改
特殊页面
页面信息