Студопедия

КАТЕГОРИИ:

Авто Автоматизация Архитектура Астрономия Аудит Биология Бухгалтерия Военное дело Генетика География Геология Государство Дом Журналистика и СМИ Изобретательство Иностранные языки Информатика Искусство История Компьютеры Кулинария Культура Лексикология Литература Логика Маркетинг Математика Машиностроение Медицина Менеджмент Металлы и Сварка Механика Музыка Население Образование Охрана безопасности жизни Охрана Труда Педагогика Политика Право Приборостроение Программирование Производство Промышленность Психология Радио Регилия Связь Социология Спорт Стандартизация Строительство Технологии Торговля Туризм Физика Физиология Философия Финансы Химия Хозяйство Ценнообразование Черчение Экология Эконометрика Экономика Электроника Юриспунденкция

Принцип оптимальности Беллмана.

⇐ ПредыдущаяСтр 9 из 19Следующая ⇒

Рассмотрим систему (4.1)

и функционал (4.2) который требуется минимизировать. Правый конец фазовых координат является свободным. Наряду с этой вариационной задачей рассмотрим вспомогательную, когда процесс рассматривается в интервале и минимизируется функционал . (4.3)

Применим принцип оптимальности к решению вариационной задачи (4.1), (4.2). Для этого сначала рассмотрим функционал (4.3). Наименьшее значение его при связях (4.1) обозначим: . (4.8)

Если - оптимальное управление, то . Оптимальное управление зависит от начального состояния y(t) в момент (t). Следовательно, v является функцией от y и t: v = v(y, t), а от управления u и его вариаций функция v = v(y, t) не зависит. Она вполне определяется значениями y, t .

Интервал (t, T) разделим на два интервала (t, t+ dt) и (t + dt,T) и выражение (4.8) запишем в виде: . Согласно принципу оптимальности последний участок также является оптимальным: (4.9)

Обозначим: , (4.10)

где - приращение вектора фазовых координат за время . Оно определяется согласно уравнениям движения (4.1). Подставляя из (4.10) в равенство (4.9), получим: .

Хотя функция зависит только от фазовых координат и времени, ее нельзя выносить за знак . Значение приращения за время зависит от управления в интервале . Но не зависит от управления в интервале , и ее можно внести под знак . Введем под знак минимума и разделим на :

Учитывая, что ; ,

получим основное уравнение метода динамического программирования:

. (4.11)

Это соотношение состоит из двух утверждений:

1. выражение достигает минимума. Это утверждение служит для определения оптимального управления ;

2. выражение при оптимальном управлении равняется нулю. Утверждение служит для определения функции .

Если - управление, минимизирующее выражение , то основное уравнение метода динамического программирования (4.12)

Здесь зависит от управления по определению, функция же не зависит от него. Тем не менее, производная от управления зависит. В этом можно убедиться, если ее представить в виде и заменить согласно системе (4.1): . (4.13)

Подставляя (4.13) в (4.12) получим уравнение Р.Беллмана: . (4.14)

Это уравнение в частных производных относительно , которое после подстановки становится нелинейным. Согласно определению v (4.8) при должно выполняться конечное условие .

В случае бесконечного интервала при процесс должен быть асимптотически устойчивым, т.е. . В том случае, когда рассматривается функционал Больца (4.15)

Уравнение (4.12) сохраняет силу, функция v в момент должна удовлетворять условию . (4.16)

⇐ Предыдущая 4 5 6 7 8910 11 12 13 Следующая ⇒

Последнее изменение этой страницы: 2018-05-30; просмотров: 238.

stydopedya.ru не претендует на авторское право материалов, которые вылажены, но предоставляет бесплатный доступ к ним. В случае нарушения авторского права или персональных данных напишите сюда...