Студопедия КАТЕГОРИИ: АвтоАвтоматизацияАрхитектураАстрономияАудитБиологияБухгалтерияВоенное делоГенетикаГеографияГеологияГосударствоДомЖурналистика и СМИИзобретательствоИностранные языкиИнформатикаИскусствоИсторияКомпьютерыКулинарияКультураЛексикологияЛитератураЛогикаМаркетингМатематикаМашиностроениеМедицинаМенеджментМеталлы и СваркаМеханикаМузыкаНаселениеОбразованиеОхрана безопасности жизниОхрана ТрудаПедагогикаПолитикаПравоПриборостроениеПрограммированиеПроизводствоПромышленностьПсихологияРадиоРегилияСвязьСоциологияСпортСтандартизацияСтроительствоТехнологииТорговляТуризмФизикаФизиологияФилософияФинансыХимияХозяйствоЦеннообразованиеЧерчениеЭкологияЭконометрикаЭкономикаЭлектроникаЮриспунденкция |
Принцип оптимальности Беллмана.
Рассмотрим систему (4.1) и функционал (4.2) который требуется минимизировать. Правый конец фазовых координат является свободным. Наряду с этой вариационной задачей рассмотрим вспомогательную, когда процесс рассматривается в интервале и минимизируется функционал . (4.3) Применим принцип оптимальности к решению вариационной задачи (4.1), (4.2). Для этого сначала рассмотрим функционал (4.3). Наименьшее значение его при связях (4.1) обозначим: . (4.8) Если - оптимальное управление, то . Оптимальное управление зависит от начального состояния y(t) в момент (t). Следовательно, v является функцией от y и t: v = v(y, t), а от управления u и его вариаций функция v = v(y, t) не зависит. Она вполне определяется значениями y, t . Интервал (t, T) разделим на два интервала (t, t+ dt) и (t + dt,T) и выражение (4.8) запишем в виде: . Согласно принципу оптимальности последний участок также является оптимальным: (4.9) Обозначим: , (4.10) где - приращение вектора фазовых координат за время . Оно определяется согласно уравнениям движения (4.1). Подставляя из (4.10) в равенство (4.9), получим: . Хотя функция зависит только от фазовых координат и времени, ее нельзя выносить за знак . Значение приращения за время зависит от управления в интервале . Но не зависит от управления в интервале , и ее можно внести под знак . Введем под знак минимума и разделим на : . Учитывая, что ; , получим основное уравнение метода динамического программирования: . (4.11) Это соотношение состоит из двух утверждений: 1. выражение достигает минимума. Это утверждение служит для определения оптимального управления ; 2. выражение при оптимальном управлении равняется нулю. Утверждение служит для определения функции . Если - управление, минимизирующее выражение , то основное уравнение метода динамического программирования (4.12) Здесь зависит от управления по определению, функция же не зависит от него. Тем не менее, производная от управления зависит. В этом можно убедиться, если ее представить в виде и заменить согласно системе (4.1): . (4.13) Подставляя (4.13) в (4.12) получим уравнение Р.Беллмана: . (4.14) Это уравнение в частных производных относительно , которое после подстановки становится нелинейным. Согласно определению v (4.8) при должно выполняться конечное условие . В случае бесконечного интервала при процесс должен быть асимптотически устойчивым, т.е. . В том случае, когда рассматривается функционал Больца (4.15) Уравнение (4.12) сохраняет силу, функция v в момент должна удовлетворять условию . (4.16)
|
||
Последнее изменение этой страницы: 2018-05-30; просмотров: 238. stydopedya.ru не претендует на авторское право материалов, которые вылажены, но предоставляет бесплатный доступ к ним. В случае нарушения авторского права или персональных данных напишите сюда... |