logo

Mašininio mokymosi klasifikavimo algoritmas

Kaip žinome, prižiūrimą mašininio mokymosi algoritmą galima plačiai suskirstyti į regresijos ir klasifikavimo algoritmus. Regresijos algoritmuose mes numatėme nuolatinių verčių išvestį, tačiau norint numatyti kategorines reikšmes, mums reikia klasifikavimo algoritmų.

Kas yra klasifikavimo algoritmas?

Klasifikavimo algoritmas yra prižiūrimo mokymosi metodas, naudojamas naujų stebėjimų kategorijai nustatyti remiantis mokymo duomenimis. Klasifikacijoje programa mokosi iš pateikto duomenų rinkinio arba stebėjimų ir tada suskirsto naujus stebėjimus į keletą klasių ar grupių. Toks kaip, Taip arba Ne, 0 arba 1, šlamštas arba ne šlamštas, katė ar šuo, ir tt Klasės gali būti vadinamos tikslais / etiketėmis arba kategorijomis.

rekha amžius

Skirtingai nuo regresijos, klasifikacijos išvesties kintamasis yra kategorija, o ne reikšmė, pvz., „Žalia arba mėlyna“, „vaisius arba gyvūnas“ ir tt Kadangi klasifikavimo algoritmas yra prižiūrimas mokymosi metodas, todėl jis naudoja pažymėtus įvesties duomenis, reiškia, kad jame yra įvestis su atitinkama išvestimi.

Klasifikavimo algoritme atskira išvesties funkcija (y) susieta su įvesties kintamuoju (x).

 y=f(x), where y = categorical output 

Geriausias ML klasifikavimo algoritmo pavyzdys yra El. pašto šiukšlių detektorius .

Pagrindinis klasifikavimo algoritmo tikslas yra nustatyti tam tikro duomenų rinkinio kategoriją, o šie algoritmai daugiausia naudojami nuspėti kategorinių duomenų išvestį.

Klasifikavimo algoritmus galima geriau suprasti naudojant toliau pateiktą diagramą. Toliau pateiktoje diagramoje yra dvi klasės – A ir B klasė. Šios klasės turi panašių viena į kitą ir į kitas klases nepanašių savybių.

Mašininio mokymosi klasifikavimo algoritmas

Algoritmas, įgyvendinantis duomenų rinkinio klasifikaciją, yra žinomas kaip klasifikatorius. Yra dviejų tipų klasifikacijos:

    Dvejetainis klasifikatorius:Jei klasifikavimo problema turi tik du galimus rezultatus, ji vadinama dvejetainiu klasifikatoriumi.
    Pavyzdžiai: TAIP arba NE, VYNAS arba MOTERIS, Šlamštas arba NE Šlamštas, KATĖ arba ŠUNIS ir kt.Kelių klasių klasifikatorius:Jei klasifikavimo problema turi daugiau nei du rezultatus, ji vadinama kelių klasių klasifikatoriumi.
    Pavyzdys: Pasėlių rūšių klasifikacijos, Muzikos rūšių klasifikacija.

Besimokantieji klasifikavimo problemose:

Klasifikavimo problemose yra dviejų tipų mokiniai:

    Tingūs mokiniai:„Lazy Learner“ pirmiausia išsaugo mokymo duomenų rinkinį ir laukia, kol gaus testo duomenų rinkinį. Tinginio besimokančiojo atveju klasifikavimas atliekamas pagal labiausiai susijusius duomenis, saugomus mokymo duomenų rinkinyje. Treniruotėms reikia mažiau laiko, bet daugiau laiko prognozėms.
    Pavyzdys: K-NN algoritmas, atvejo samprotavimasNorintys besimokantieji:Prieš gaudami bandomąjį duomenų rinkinį, norintys besimokantieji sukuria klasifikavimo modelį, pagrįstą mokymo duomenų rinkiniu. Priešingai nei tingūs besimokantieji, Eager Learner užtrunka daugiau laiko mokymuisi ir mažiau laiko prognozavimui. Pavyzdys: Sprendimų medžiai, Na�ve Bayes, ANN.

ML klasifikavimo algoritmų tipai:

Klasifikavimo algoritmai gali būti toliau skirstomi į daugiausia dvi kategorijas:

    Linijiniai modeliai
    • Logistinė regresija
    • Palaikykite vektorines mašinas
    Netiesiniai modeliai
    • K-Artimiausi kaimynai
    • Branduolys SVM
    • Na�ne Bayes
    • Sprendimų medžio klasifikacija
    • Atsitiktinė miškų klasifikacija

Pastaba: Aukščiau pateiktus algoritmus sužinosime vėlesniuose skyriuose.

Klasifikavimo modelio įvertinimas:

Kai mūsų modelis bus baigtas, būtina įvertinti jo veikimą; arba tai yra klasifikavimo arba regresijos modelis. Taigi, norėdami įvertinti klasifikavimo modelį, turime šiuos būdus:

polimorfizmas

1. Žurnalo praradimas arba kryžminės entropijos praradimas:

  • Jis naudojamas klasifikatoriaus, kurio išvestis yra tikimybės reikšmė tarp 0 ir 1, veikimui įvertinti.
  • Geram dvejetainiam klasifikavimo modeliui log nuostolio reikšmė turėtų būti artima 0.
  • Loginio nuostolio reikšmė didėja, jei numatoma vertė skiriasi nuo tikrosios vertės.
  • Mažesnis žurnalo nuostolis reiškia didesnį modelio tikslumą.
  • Dvejetainei klasifikacijai kryžminė entropija gali būti apskaičiuojama taip:
 ?(ylog(p)+(1?y)log(1?p)) 

Kur y = faktinė galia, p = numatoma produkcija.

2. Sumaišties matrica:

  • Sumaišties matrica pateikia mums matricą / lentelę kaip išvestį ir apibūdina modelio veikimą.
  • Ji taip pat žinoma kaip klaidų matrica.
  • Matrica susideda iš prognozių rezultatų apibendrintos formos, kurioje yra bendras teisingų ir neteisingų prognozių skaičius. Matrica atrodo taip, kaip žemiau pateikta lentelė:
Tikrasis teigiamas Tikrasis neigiamas
Numatytas teigiamas Tikras teigiamas Klaidingai teigiamas
Numatomas neigiamas Klaidingas neigiamas Tikras neigiamas
Mašininio mokymosi klasifikavimo algoritmas

3. AUC-ROC kreivė:

  • ROC kreivė reiškia Imtuvo veikimo charakteristikų kreivė ir AUC reiškia Plotas po kreive .
  • Tai grafikas, rodantis klasifikavimo modelio veikimą esant skirtingoms slenksčiams.
  • Norėdami vizualizuoti kelių klasių klasifikavimo modelio veikimą, naudojame AUC-ROC kreivę.
  • ROC kreivė brėžiama naudojant TPR ir FPR, kur TPR (tikrasis teigiamas rodiklis) Y ašyje ir FPR (klaidingai teigiamas rodiklis) X ašyje.

Klasifikavimo algoritmų naudojimo atvejai

Klasifikavimo algoritmai gali būti naudojami įvairiose vietose. Toliau pateikiami keli populiarūs klasifikavimo algoritmų naudojimo atvejai:

  • El. pašto šiukšlių aptikimas
  • Kalbos atpažinimas
  • Vėžio navikų ląstelių identifikavimas.
  • Vaistų klasifikacija
  • Biometrinis identifikavimas ir kt.