logo

Mašininio mokymosi šališkumas ir dispersija

Mašinų mokymasis yra dirbtinio intelekto šaka, leidžianti mašinoms atlikti duomenų analizę ir prognozes. Tačiau jei mašininio mokymosi modelis nėra tikslus, jis gali padaryti numatymo klaidų, o šios numatymo klaidos paprastai žinomos kaip poslinkis ir dispersija. Mašininio mokymosi metu šios klaidos visada bus, nes visada yra nedidelis skirtumas tarp modelio prognozių ir faktinių prognozių. Pagrindinis ML / duomenų mokslo analitikų tikslas yra sumažinti šias klaidas, kad būtų gauti tikslesni rezultatai. Šioje temoje aptarsime šališkumą ir dispersiją, šališkumo ir dispersijos kompromisą, netinkamą pritaikymą ir perdėtą pritaikymą. Tačiau prieš pradėdami pirmiausia išsiaiškinkime, kokios yra mašininio mokymosi klaidos?

Mašininio mokymosi šališkumas ir dispersija

Mašininio mokymosi klaidų?

Mašininio mokymosi atveju klaida yra matas, nurodantis, kaip tiksliai algoritmas gali numatyti anksčiau nežinomo duomenų rinkinio prognozes. Remiantis šiomis klaidomis, pasirenkamas mašininio mokymosi modelis, kuris konkrečiame duomenų rinkinyje gali veikti geriausiai. Iš esmės yra dviejų tipų mašininio mokymosi klaidų, kurios yra:

    Sumažinamos klaidos:Šias klaidas galima sumažinti, kad būtų pagerintas modelio tikslumas. Tokios klaidos gali būti toliau skirstomos į šališkumą ir dispersiją.
    Mašininio mokymosi šališkumas ir dispersija Neištaisomos klaidos:Šios klaidos visada bus modelyje

nepriklausomai nuo to, kuris algoritmas buvo naudojamas. Šių klaidų priežastis yra nežinomi kintamieji, kurių vertės negalima sumažinti.

Kas yra Šališkumas?

Apskritai mašininio mokymosi modelis analizuoja duomenis, randa juose modelius ir daro prognozes. Treniruodamasis modelis išmoksta šiuos šablonus duomenų rinkinyje ir taiko juos bandymo duomenims prognozuoti. Darant prognozes atsiranda skirtumas tarp modelio numatytų verčių ir faktinių verčių / numatomų verčių , ir šis skirtumas žinomas kaip šališkumo klaidos arba klaidos dėl šališkumo . Tai galima apibrėžti kaip mašininio mokymosi algoritmų, pvz., tiesinės regresijos, nesugebėjimą užfiksuoti tikrojo duomenų taškų ryšio. Kiekvienas algoritmas prasideda tam tikra paklaida, nes šališkumas atsiranda dėl modelio prielaidų, todėl tikslinę funkciją lengva išmokti. Modelis turi vieną iš:

skaičiuoti skirtingai
    Mažas poslinkis:Mažo poslinkio modelis padarys mažiau prielaidų apie tikslinės funkcijos formą.Didelis poslinkis:Modelis su dideliu šališkumu daro daugiau prielaidų, o modelis nebegali užfiksuoti svarbių mūsų duomenų rinkinio savybių. Didelio poslinkio modelis taip pat negali gerai veikti naudojant naujus duomenis.

Paprastai linijinis algoritmas turi didelį šališkumą, nes jis greitai mokosi. Kuo paprastesnis algoritmas, tuo didesnis šališkumas gali būti įvestas. Tuo tarpu netiesinis algoritmas dažnai turi mažą šališkumą.

Kai kurie mašininio mokymosi algoritmų su mažu šališkumu pavyzdžiai yra sprendimų medžiai, k-artimiausi kaimynai ir paramos vektorių mašinos . Tuo pačiu metu yra algoritmas su dideliu šališkumu Tiesinė regresija, tiesinė diskriminacinė analizė ir logistinė regresija.

Didelio šališkumo mažinimo būdai:

Didelis poslinkis dažniausiai atsiranda dėl labai paprasto modelio. Toliau pateikiami keli būdai, kaip sumažinti didelį šališkumą:

  • Padidinkite įvesties funkcijas, nes modelis yra nepakankamai pritaikytas.
  • Sumažinkite reguliavimo terminą.
  • Naudokite sudėtingesnius modelius, pvz., įtraukite kai kurias daugianario savybes.

Kas yra dispersijos klaida?

Sklaida nurodytų prognozės svyravimo dydį, jei būtų naudojami skirtingi mokymo duomenys. Paprastais žodžiais, dispersija nurodo, kiek atsitiktinis kintamasis skiriasi nuo jo numatomos vertės. Idealiu atveju modelis neturėtų per daug skirtis nuo vieno mokymo duomenų rinkinio iki kito, o tai reiškia, kad algoritmas turėtų gerai suprasti paslėptą įvesties ir išvesties kintamųjų susiejimą. Variacijos klaidos yra bet kurios iš maža dispersija arba didelė dispersija.

Maža dispersija reiškia, kad, pasikeitus mokymo duomenų rinkiniui, tikslinės funkcijos numatymas šiek tiek skiriasi. Tuo pačiu metu, Didelė dispersija rodo didelį tikslinės funkcijos numatymo skirtumą, pasikeitus mokymo duomenų rinkiniui.

Modelis, kuris rodo didelę dispersiją, daug išmoksta ir gerai veikia su mokymo duomenų rinkiniu, o netinkamai apibendrina nematomą duomenų rinkinį. Dėl to toks modelis duoda gerų rezultatų naudojant mokymo duomenų rinkinį, bet rodo didelį klaidų lygį bandymo duomenų rinkinyje.

Kadangi esant didelei dispersijai, modelis per daug išmoksta iš duomenų rinkinio, modelis per daug pritaikomas. Modelis su didele dispersija turi šias problemas:

  • Didelės dispersijos modelis lemia permontavimą.
  • Padidinkite modelio sudėtingumą.

Paprastai netiesiniai algoritmai turi daug lankstumo, kad atitiktų modelį, turi didelę dispersiją.

python os listdir
Mašininio mokymosi šališkumas ir dispersija

Kai kurie mašininio mokymosi algoritmų su maža dispersija pavyzdžiai: Tiesinė regresija, logistinė regresija ir tiesinė diskriminacinė analizė . Tuo pačiu metu yra algoritmai, turintys didelę dispersiją sprendimų medį, paramos vektorių mašiną ir K-artimiausius kaimynus.

Didelės dispersijos mažinimo būdai:

  • Sumažinkite įvesties funkcijas arba parametrų skaičių, nes modelis yra per daug pritaikytas.
  • Nenaudokite labai sudėtingo modelio.
  • Padidinkite treniruočių duomenis.
  • Padidinkite reguliavimo terminą.

Įvairūs šališkumo ir dispersijos deriniai

Yra keturi galimi paklaidų ir nuokrypių deriniai, pavaizduoti toliau pateiktoje diagramoje:

Mašininio mokymosi šališkumas ir dispersija
    Mažas poslinkis, mažas dispersija:
    Mažo šališkumo ir mažos dispersijos derinys rodo idealų mašininio mokymosi modelį. Tačiau praktiškai tai neįmanoma.Mažas poslinkis, didelis dispersija:Esant mažam šališkumui ir didelei dispersijai, modelio prognozės yra nenuoseklios ir vidutiniškai tikslios. Šis atvejis įvyksta, kai modelis mokosi naudodamas daug parametrų ir todėl veda į an perdėtas Didelis poslinkis, mažas dispersija:Esant dideliam šališkumui ir mažai dispersijai, prognozės yra nuoseklios, bet vidutiniškai netikslios. Šis atvejis įvyksta, kai modelis blogai mokosi su mokymo duomenų rinkiniu arba naudoja keletą parametro skaičių. Tai veda prie nepakankamas pritaikymas modelio problemos.Didelis poslinkis, didelis dispersija:
    Esant dideliam šališkumui ir didelei dispersijai, prognozės yra nenuoseklios ir vidutiniškai netikslios.

Kaip nustatyti didelę dispersiją arba didelį šališkumą?

Didelę dispersiją galima nustatyti, jei modelis turi:

shreya ghoshal
Mašininio mokymosi šališkumas ir dispersija
  • Maža treniruočių klaida ir didelė bandymo klaida.

Didelis poslinkis gali būti nustatytas, jei modelis turi:

  • Didelė mokymo klaida ir bandymo klaida yra beveik panaši į treniruočių klaidą.

Šališkumo ir nuokrypio kompromisas

Kuriant mašininio mokymosi modelį tikrai svarbu pasirūpinti šališkumu ir dispersija, kad būtų išvengta modelio per didelio ir nepakankamo pritaikymo. Jei modelis yra labai paprastas ir turi mažiau parametrų, jis gali turėti mažą dispersiją ir didelį poslinkį. Tuo tarpu, jei modelis turi daug parametrų, jis turės didelę dispersiją ir mažą poslinkį. Taigi, reikia išlaikyti pusiausvyrą tarp paklaidos ir dispersijos klaidų, o ši pusiausvyra tarp paklaidos ir dispersijos paklaidos yra žinoma kaip šališkumo ir nuokrypio kompromisas.

Mašininio mokymosi šališkumas ir dispersija

Norint tiksliai numatyti modelį, algoritmams reikia mažos dispersijos ir mažo poslinkio. Tačiau tai neįmanoma, nes šališkumas ir dispersija yra tarpusavyje susiję:

  • Jei sumažinsime dispersiją, tai padidins šališkumą.
  • Jei sumažinsime šališkumą, tai padidins dispersiją.

Šališkumo ir dispersijos kompromisas yra pagrindinė prižiūrimo mokymosi problema. Idealiu atveju mums reikia modelio, kuris tiksliai fiksuotų mokymo duomenų dėsningumus ir tuo pat metu gerai apibendrintų nematytą duomenų rinkinį. Deja, tai neįmanoma padaryti vienu metu. Kadangi didelės dispersijos algoritmas gali gerai veikti su treniruočių duomenimis, tačiau jis gali būti per daug pritaikytas prie triukšmingų duomenų. Tuo tarpu didelio šališkumo algoritmas sukuria labai paprastą modelį, kuris gali net neužfiksuoti svarbių duomenų dėsningumų. Taigi, norėdami sukurti optimalų modelį, turime rasti tašką tarp šališkumo ir dispersijos.

Vadinasi, Šališkumo ir nuokrypio kompromisas yra rasti tinkamą vietą, kad būtų galima subalansuoti šališkumo ir dispersijos klaidas.