Maskinlæring (ELE520)

Kurset fokuserer på det matematiske grunnlaget for metoder for læring av underliggende strukturer representert i data og trening av modeller son kan gjøre prediksjoner på nye data. Slike prediksjoner kan typisk være å skille mellom ulike kategorier av data, det vil si klassifisering, som vil være hovedfokus for dette kurset.


Dette er emnebeskrivelsen for studieåret 2022-2023. Merk at det kan komme endringer.

Fakta

Emnekode

ELE520

Versjon

1

Vekting (stp)

10

Semester undervisningsstart

Vår

Antall semestre

1

Vurderingssemester

Vår

Undervisningsspråk

Engelsk

Innhold

Kurset starter med å gi en innføring i den grunnleggende teorien, Bayes desisjonsteori. Denne statistisk og matematisk funderte teorien lar oss definere optimale desisjonsgrenser for å kunne skille dataelementene, representert ved såkalte egenskapsvektorer, fra hverandre. Disse desisjonsgrensene er optimale i forhold til at de minimerer den forventede feilraten eller mer generelt, forventet risiko. Den innledende teorien forutsetter at de statistiske funksjonene som beskriver dataene i de ulike klassene er kjent. I praksis vil dette som regel ikke være tilfelle, og derfor må disse funksjonene estimeres ved bruk av parametriske og ikke-parametriske metoder. Alternativt til å estimere de statistiske funksjonene direkte, kan en estimere koeffisientene i polynomer som beskriver desisjonsgrensene direkte. Dette introduseres med lineære diskriminantfunksjoner hvor en søker å bestemme de polynomkoeffisientene som minimerer feilraten uttrykt ved en kriteriefunksjon. Til denne minimeringen benyttes iterative nedstigningsteknikker. Kurvetilpasning ved regresjonsanalyse presenteres også i denne sammenhengen.  Videre presenteres nevrale nett som kan benyttes til å løse problemer der lineære diskriminantfunksjoner ikke strekker til. Som en del av dette vil en også diskutere dype nevrale nett, som er utgangspunktet for dyplæring.  I teknikkene presentert så langt forutsetter en at dataenes klassetilhørighet er kjent. Ved bruk av klyngeinndeling antas ikke lenger noe om klassetilhørighet og en søker å finne naturlige grupperinger i datamaterialet. Til slutt presenteres metoder for å evaluere klassifiserere. Et annet viktig trekk ved klassifisering er hvordan datamaterialet karakteriseres ved egenskapsvektorer. De ulike delene av pensum vil følges opp med teori- og laboratorieoppgaver. Underveis i kurset vises illustrerende eksempler fra pågående forskningsprosjekter innen biomedisink dataanalyse.

Læringsutbytte

Etter å ha tatt dette emnet skal studenten kunne kjenne igjen problemstillinger som kan håndteres ved bruk av maskinlæringsmetoder. Videre skal studenten kunne presisere og formulere problemstillingen ved bruk av fagterminologien som er tilegnet gjennom kurset. Løsning av problemet innebærer at studenten skal kunne implementere en klassifiserer ved å trene denne opp ved hjelp av et representativt datasett og gjøre denne i stand til å håndtere innkommende data. Studenten skal kunne håndtere ulike typer klassifiserere og kjenne teorien for disse slik at spesialtilpassede løsninger skal kunne utvikles.

Forkunnskapskrav

Ingen

Anbefalte forkunnskaper

BID230 Grunnleggende programmering, DAT110 Grunnleggende programmering, ÅMA100 Matematiske metoder 1, ÅMA110 Sannsynlighetsregning med statistikk, ÅMA260 Matematiske metoder 2
I dette emnet formidles de ulike metodene gjennom å presentere og forklare de matematiske detaljene.  Det vil være anbefalt at studenter som ønsker å følge kurset bør ha solide matematiske  forkunnskaper spesielt  innen lineær algebra og statistikk.  Det legges stor vekt på laboratoriedelen av kurset hvor en bruker Scientific Python. De som følger kurset bør derfor også ha god ferdigheter innen programmering, og må være forberedt på å skrive funksjoner med bruk av iterative kontrollstrukturer og tenke gjenbruk av kode.

Eksamen / vurdering

Vurderingsform Vekting Varighet Karakter Hjelpemiddel
En skriftlig prøve 1/1 4 Timer Bokstavkarakterer Ingen trykte eller håndskrevne hjelpemidler tillatt. Godkjent, enkel kalkulator tillatt

Vilkår for å gå opp til eksamen/vurdering

Øvingsoppgaver
Obligatoriske arbeidskrav (som øvingsoppgaver, laboratorieoppgaver, prosjektoppgaver og lignende) skal være godkjent av faglærer innen angitt frist. Det obligatoriske øvingsopplegget må være godkjent for å få adgang til eksamen. Kandidater med ikke godkjent obligatorisk øvingsopplegg kan ikke gjenoppta dette før neste gang emnet har ordinær undervisning.

Fagperson(er)

Ansvarlig laboratorieøvelser:

Ivica Kostric

Instituttleder:

Tom Ryen

Arbeidsformer

8 timer per uke typisk fordelt på 4 timer forelesning, 2 timer dataøvinger  og 2 timer teoretiske regneøvinger pr. uke.  Varianter av dette vil kunne forekomme.

Det er viktig å jobbe med regne- og dataøvinger for å få erfaring med bruk av metodene som undervises slik at metodene senere kan anvendes. 

Overlapping

Emne Reduksjon (SP)
Mønstergjenkjenning (MIK190_1) 10
Maskinlæring (E-MDS110_1) 5

Åpent for

Applied Data Science, master i teknologi/siv.ing. Computational Engineering - master i teknologi/siv.ing. Datateknologi - master i teknologi/siv.ing. Industriell økonomi - master i teknologi/siv.ing. Robotteknologi og signalbehandling - master i teknologi/siv.ing.

Emneevaluering

Skjer vanligvis gjennom skjema og/eller samtaler i henhold til gjeldende retningslinjer

Litteratur

Pensumlisten finner du i Leganto