Mokymosi sustiprinimo metu agentas arba sprendimų priėmėjas generuoja mokymo duomenis bendraudamas su pasauliu. Agentas turi išmokti savo veiksmų pasekmes per bandymus ir klaidas, o ne jam būtų aiškiai pasakyta apie teisingus veiksmus.
Daugiarankių banditų problema
Mokymosi sustiprinimo srityje mes naudojame Multi-Armed Bandit Problem, kad formalizuotume sprendimų priėmimo neapibrėžtumo sąlygomis, naudojant k ginklus banditus. Sprendimų priėmėjas arba agentas dalyvauja daugiarankio bandito problemoje, kad galėtų pasirinkti iš k-skirtingų veiksmų ir gauna atlygį pagal pasirinktą veiksmą. Bandito problema naudojama apibūdinti pagrindines mokymosi sustiprinimo sąvokas, tokias kaip atlygis, laiko žingsniai ir vertybės.

Aukščiau pateiktame paveikslėlyje pavaizduotas lošimo automatas, taip pat žinomas kaip banditas su dviem svirtimis. Darome prielaidą, kad kiekviena svirtis turi atskirą atlygio paskirstymą ir yra bent viena svirtis, kuri generuoja didžiausią atlygį.
Atlygio, atitinkančio kiekvieną svertą, tikimybės pasiskirstymas yra skirtingas ir lošėjas (sprendimą priimantis asmuo) nežino. Taigi, tikslas yra nustatyti, kurią svirtį reikia patraukti, kad gautumėte didžiausią atlygį po tam tikro bandymų rinkinio.
Pavyzdžiui:
Įsivaizduokite internetinės reklamos bandymą, kai reklamuotojas nori įvertinti trijų skirtingų to paties produkto skelbimų paspaudimų rodiklį. Kai vartotojas apsilanko svetainėje, reklamuotojas atsitiktinai parodo skelbimą. Tada reklamuotojas stebi, ar vartotojas spusteli skelbimą, ar ne. Po kurio laiko reklamuotojas pastebi, kad vienas skelbimas atrodo veikiantis geriau nei kiti. Dabar reklamuotojas turi nuspręsti, ar pasilikti su našiausiu skelbimu, ar tęsti atsitiktinių imčių tyrimą.
Jei reklamuotojas rodo tik vieną skelbimą, jis nebegali rinkti duomenų apie kitus du skelbimus. Galbūt vienas iš kitų skelbimų yra geresnis, tik dėl atsitiktinumo jis atrodo blogesnis. Jei kiti du skelbimai yra prastesni, tyrimo tęsimas gali neigiamai paveikti paspaudimų rodiklį. Šis reklamos bandymas yra sprendimų priėmimo netikrumo sąlygomis pavyzdys.
Aukščiau pateiktame pavyzdyje agento vaidmenį atlieka reklamuotojas. Reklamuotojas turi pasirinkti vieną iš trijų skirtingų veiksmų – rodyti pirmą, antrą arba trečią skelbimą. Kiekvienas skelbimas yra veiksmas. Pasirinkus tą skelbimą, gaunamas nežinomas atlygis. Galiausiai, reklamuotojo pelnas po skelbimo yra atlygis, kurį reklamuotojas gauna.
Veiksmo vertės:
Kad reklamuotojas nuspręstų, kuris veiksmas yra geriausias, turime apibrėžti kiekvieno veiksmo vertę. Šias reikšmes apibrėžiame naudodami veiksmo vertės funkciją, naudodami tikimybių kalbą. Veiksmo pasirinkimo vertė q*a) apibrėžiamas kaip laukiamas atlygis Rt gauname imdamiesi veiksmo a iš galimos veiksmų visumos.
Agento tikslas yra maksimaliai padidinti laukiamą atlygį pasirenkant veiksmą, kurio veiksmo vertė yra didžiausia.
Veiksmo vertės įvertinimas:
paprasta python programa
Kadangi veiksmo pasirinkimo vertė t.y. K*a) agentas nežinomas, todėl naudosime imties vidurkis metodas jį įvertinti.

Tyrinėjimas prieš išnaudojimą:
- Godus veiksmas : kai agentas pasirenka veiksmą, kurio šiuo metu apskaičiuota didžiausia vertė. Agentas naudojasi turimomis žiniomis, pasirinkdamas gobšų veiksmą. Ne godus veiksmas: kai agentas nepasirenka didžiausios numatomos vertės ir paaukoja tiesioginį atlygį, tikėdamasis gauti daugiau informacijos apie kitus veiksmus. Tyrinėjimas : leidžia agentui pagerinti savo žinias apie kiekvieną veiksmą. Tikimės, kad tai bus ilgalaikė nauda. Išnaudojimas: leidžia agentui pasirinkti gobšų veiksmą, siekiant gauti didžiausią atlygį už trumpalaikę naudą. Grynai godus veiksmų pasirinkimas gali lemti neoptimalų elgesį.
Iškyla dilema tarp tyrinėjimo ir išnaudojimo, nes agentas negali pasirinkti ir tyrinėti, ir išnaudoti tuo pačiu metu. Todėl mes naudojame Viršutinė pasitikėjimo riba algoritmas tyrinėjimo-eksploatavimo dilemai išspręsti
Viršutinės pasitikėjimo ribos veiksmų pasirinkimas:
Atrenkant veiksmą su viršutine pasitikėjimo riba, veiksmo vertės įvertinimuose naudojamas neapibrėžtumas, siekiant subalansuoti tyrinėjimą ir eksploatavimą. Kadangi veiksmo vertės įverčių tikslumas yra neapibrėžtas, kai naudojame atrinktą atlygių rinkinį, UCB naudoja neapibrėžtumą įvertinimuose, kad paskatintų tyrinėjimą.

Kta) čia pateikiamas dabartinis veiksmų įvertinimas a laiku t . Parenkame veiksmą, kurio nustatyta didžiausia veiksmo vertė ir viršutinė patikimumo riba.
java objektų lygybė

Q(A) Aukščiau pateiktame paveikslėlyje parodytas dabartinis veiksmo veiksmo vertės įvertinimas A . Skliausteliuose nurodomas patikimumo intervalas K*(A) kuri sako, kad esame įsitikinę, kad faktinė veiksmas-veiksmo vertė A yra kažkur šiame regione.
Apatinis skliaustas vadinamas apatine riba, o viršutinis – viršutine. Sritis tarp skliaustų yra pasikliautinasis intervalas, kuris parodo įverčių neapibrėžtumą. Jei regionas yra labai mažas, mes tampame labai tikri, kad tikroji veiksmų vertė A yra netoli mūsų numatomos vertės. Kita vertus, jei regionas yra didelis, tada mes tampame neaiškūs, kad veiksmų vertė A yra netoli mūsų numatomos vertės.
The Viršutinė pasitikėjimo riba vadovaujasi optimizmo principu neapibrėžtumo akivaizdoje, o tai reiškia, kad jei nesame tikri dėl veiksmo, turėtume optimistiškai manyti, kad tai teisingas veiksmas.
Pavyzdžiui, tarkime, kad toliau pateiktame paveikslėlyje yra šie keturi veiksmai su susijusiais netikrumais, mūsų agentas neįsivaizduoja, kuris veiksmas yra geriausias. Taigi pagal UCB algoritmą jis optimistiškai rinksis tą veiksmą, kuris turi aukščiausią viršutinę ribą t.y. A . Tai darydami arba jis turės didžiausią vertę ir gaus didžiausią atlygį, arba tai padarę sužinosime apie veiksmą, apie kurį mažiausiai žinome.

Tarkime, kad pasirinkę veiksmą A patenkame į būseną, pavaizduotą toliau esančiame paveikslėlyje. Šį kartą UCB pasirinks veiksmą B nuo Q(B) turi aukščiausią viršutinę patikimumo ribą, nes jos veiksmo vertės įvertis yra didžiausias, net jei pasikliautinasis intervalas yra mažas.

Iš pradžių UCB tyrinėja daugiau, kad sistemingai sumažintų neapibrėžtumą, tačiau laikui bėgant jo tyrimas mažėja. Taigi galime teigti, kad UCB vidutiniškai gauna didesnį atlygį nei kiti algoritmai, tokie kaip Epsilon-greedy, Optimistic Initial Values ir kt.