Uczące się systemy decyzyjne

  • Dodaj recenzję:
  • 4816
  • Producent: Oficyna Wydawnicza Politechniki Warszawskiej
  • Autor: Paweł Wawrzyński
  • szt.
  • Cena netto: 37,14 zł 39,00 zł

Uczące się systemy decyzyjne

rok wydania: 2021, wydanie pierwsze
ISBN: ISBN: 978-83-8156-271-3
ilość stron: 248
format: B5
oprawa: miękka

Opis

Część I podręcznika stanowi wprowadzenie. Przedstawia w stopniu wystarczającym do dalszej lekturty zagadnienia dotyczące sieci neuronowych, optymalizacji stochastycznej i programowania dynamicznego, czyli trzech podstawowych narzędzi służących do budowy systemów adaptacyjnych i uczących się. Część II jest poświęcona uczeniu się ze wzmocnieniem. Materiał został zaprezentowany w sposób zwarty i dlatego uzupełniono go rozległą bibliografią. W części III omówiono zagadnienia dotyczące sterowania adaptacyjnego, zaczynając od formalizmu służącego do opisu obiektów dynamicznych i teorii stabilności. Następnie przedstawiono koncepcję systemów adaptacyjnych z modelem referencyjnym oraz koncepcję samostrojących się regulatorów. W ostatniej części omówiono rzadziej stosowane alternatywne podejścia do zagadnienia.

Spis treści

I. Preliminaria

1. Wprowadzenie
1.1. Przykłady zagadnień, w których pojawia się potrzeba adaptacji i uczenia się
1.2. Cel podręcznika i poruszane zagadnienia
1.3. Dziedziny składające się na zawartość podręcznika
1.4. Adaptacja i uczenie się jako droga do inteligentnego zachowania się maszyn i programów
1.5. Organizacja podręcznika
1.6. Potrzebna wiedza wstępna

2. Optymalizacja stochastyczna
2.1. Algorytm gradientu prostego
2.2. Procedura Stochastycznego Najszybszego Spadku, SGD

3. Aproksymacja funkcji i podstawowe mechanizmy adaptacji
3.1. Aproksymatory i zagadnienie aproksymacji
3.2. Zagadnienie uczenia na zbiorze nieskończonym, on-line
3.3. Perceptron wielowarstwowy
3.4. Uczenie się przy użyciu aproksymacji stochastycznej
3.5. Zagadnienia praktyczne związane z używaniem sieci neuronowych w systemach uczących się

4. Proces Decyzyjny Markowa i programowanie dynamiczne
4.1. Proces Decyzyjny Markowa
4.2. Funkcja wartości-akcji i indukowanie strategii
4.3. Klasyczny algorytm programowania dynamicznego
4.4. Programowanie dynamiczne w algorytmice
4.5. Algorytm Iteracji Strategii
4.6. Algorytm Iteracji Funkcji Wartości

II. Uczenie się ze wzmocnieniem

5. Podstawy
5.1. Nieznany z góry Proces Decyzyjny Markowa
5.2. Algorytmy Q-Learning i SARSA
5.3. Rozszerzenie algorytmów Q-Learning i SARSA do ciągłych
przestrzeni stanów i akcji

6. Optymalizacja stochastycznego wyboru
6.1. Parametryzowane rozkłady prawdopodobieństwa
6.2. Algorytm REINFORCE punktowy
6.3. Stacjonarna strategia decyzyjna
6.4. Algorytm REINFORCE statyczny
6.5. Algorytm REINFORCE epizodyczny

7. Algorytm Aktor-Krytyk
7.1. Idea algorytmu Aktor-Krytyk
7.2. Klasyczny Aktor-Krytyk
7.3. Aktor-Krytyk(A)

8. Aktor-Krytyk z kompatybilną aproksymacją
8.1. Optymalizacja średniej nagrody
8.2. Gradient strategii
8.3. Aktor-Krytyk z kompatybilną aproksymacją
8.4. Naturalny Aktor-Krytyk
8.5. Dyskonto - ograniczenie wariancji estymatora gradientu

9. Wielokrotne przetwarzanie obserwacji
9.1. Algorytm Q-Learning z powtarzaniem doświadczenia
9.2. Próbkowanie istotnościowe
9.3. Algorytm Aktor-Krytyk z powtarzaniem doświadczenia
9.4. Optymalizacja estymatora wskaźnika jakości

10. Algorytmy wzbogacone
10.1. Asynchronous Advantage Actor-Critic
10.2. Prozimal Policy Optimization
10.3. Deep Deterministic Policy Gradient
10.4. Soft Actor-Critic

11. Gęsta dyskretyzacja czasu
11.1. Strategia z autoskorelowanymi akcjami
11.2. Actor-Critic with Experien.ee Replay and Autocorrelated aCtions

12. Uczenie się w warunkach częściowo obserwowalnego stanu
12.1. Rekurencyjne sieci neuronowe
12.2. Deep Recurrent Q-Learning

13. Wieloagentowe uczenie się ze wzmocnieniem
13.1. Model synchroniczny niekooperacyjny z częściowo obserwowanym stanem
13.2. Multi-Agent Deep Deterministic Policy Gradient

III. Sterowanie adaptacyjne

14. Obiekty dynamiczne
14.1. Wstęp
14.2. Liniowe obiekty SISO
14.3. Dyskretna aproksymacja obiektów o ciągłej dynamice

15. Stabilność i funkcja Lapunowa
15.1. Ogólna postać typowego schematu adaptacji
15.2. Stabilność
15.3. Funkcja Lapunowa
15.4. Stabilność w kontekście funkcji Lapunowa

16. Sterowanie adaptacyjne z modelem referencyjnym
16.1. Liniowy obiekt SISO pierwszego rzędu
16.2. Uogólnienie
16.3. Obiekty liniowe wyższych rzędów

17. Zaawansowane schematy adaptacji
17.1. Obiekty o nieliniowej dynamice
17.2. Obiekty z nieobserwowalnymi pochodnymi stanu

18. Samostrojące się regulatory
18.1. Dynamika liniowo parametryzowalna
18.2. Liniowe najmniejsze kwadraty
18.3. Najmniejsze kwadraty z wykładniczym zapominaniem
18.4. Adaptacyjny dobór współczynnika zapominania

IV. Inne podejścia do adaptacji

19. Aproksymowane programowanie dynamiczne

20. Stochastyczne sterowanie adaptacyjne

21. Sterowanie z iteracyjnym uczeniem się

22. Filtr Kalmana
22.1. Model
22.2. Algorytm
22.3. Wyprowadzenia
22.4. Rozszerzony Filtr Kalmana