Informasjonsgjenfinning og tekstutvinning (DAT640)

Kurset tilbyr en innføring i teknikker og metoder for behandling, uthenting og søk i store tekstlige datasamlinger. Kurset tar for seg ulike applikasjoner og gir en "hands-on" eksperimentering med "state-of-the-art" algoritmer ved hjelp av eksisterende programvareverktøy og datasamlinger.


Dette er emnebeskrivelsen for studieåret 2024-2025

Fakta

Emnekode

DAT640

Versjon

1

Vekting (stp)

10

Semester undervisningsstart

Høst

Antall semestre

1

Vurderingssemester

Høst

Undervisningsspråk

Engelsk

Innhold

NB! Dette er et valgemne og dersom det er færre enn 10 studenter oppmeldt pr. 20. august, kan dette medføre at emnet ikke tilbys.

  • Tekstpreprosessering, indeksering

  • Representasjonslæring (ordinnbygging)

  • Kategorisering av tekst

  • Søkemotorarkitektur

  • Gjenfinningsmetoder (vektor-rom modell, probabilistiske modeller, learning-to-rank, nevrale modeller)

  • Gjenfinningsevaluering

  • Query modellering, relevant tilbakemelding

  • Websøk (lenkeanalyse)

  • Semantisk søk (kunnskapsbaser, enhetsgjenfinning, enhetslenking)

  • Informasjonstilgang med samtaleagenter

  • Transformatorer og store språkmodeller

Læringsutbytte

Kunnskap:

  • Teori og praksis innen datautvinning og informasjonssøk. Ulike metoder og teknikker vil bli gjennomgått.

Ferdigheter:

  • Prosessere og forberede storskala tekstlige datasamlinger for utvinning og søk.

  • Bruke clustering, klassifisering og rangeringsmetoder til en rekke informasjonstilgangsoppgaver.

  • Evaluere resultater og utføre feilanalyse.

Generell kompetanse:

  • Forstå styrker og begrensninger av populære datautvinning- og informasjonssøkteknikker. Kunne identifisere gode forretningsapplikasjoner og være aktiv deltaker og lede slike prosjekter.

Forkunnskapskrav

Ingen

Eksamen / vurdering

Prosjektoppgave og skriftlig eksamen

Vurderingsform Vekting Varighet Karakter Hjelpemiddel
Prosjektoppgave 2/5 Bokstavkarakterer
Skriftlig eksamen 3/5 4 Timer Bokstavkarakterer Alle hjelpemidler er tillatt – det er ikke tillatt å samarbeide / få hjelp av andre personer i arbeidet med eksamensoppgaven

Prosjektet er en kombinasjon av individuelle oppgaver og gruppeoppgaver. Prosjektgrupper blir satt opp av faglærer. Det er ikke kontemuligheter på prosjektsoppgaven. Studenter som ønsker å ta denne delen på nytt, må ta den opp igjen neste gang emnet har ordinær undervisning.Digital skriftlig eksamen.Begge vurderingsdeler må være bestått for å oppnå samlet karakter i emnet.

Fagperson(er)

Emneansvarlig:

Krisztian Balog

Instituttleder:

Tom Ryen

Arbeidsformer

6 timer forelesning/laboratorieøvinger pr. uke.

Overlapping

Emne Reduksjon (SP)
Websøk og data mining (DAT630_1) 5

Åpent for

Data Science - master i teknologi/siv.ing., deltid Datateknologi - master i teknologi/siv.ing.
Utveksling ved Det teknisk-naturvitenskapelige fakultet

Emneevaluering

Det skal være en tidligdialog mellom emneansvarlig, studenttillitsvalgt og studentene. Formålet er tilbakemelding fra studentene for endringer og justering i emnet inneværende semester. I tillegg skal det gjennomføres en digital emneevaluering minimum hvert tredje år. Den har som formål å innhente studentenes erfaringer med emnet.

Litteratur

Pensumlisten finner du i Leganto