Informasjonsgjenfinning og tekstutvinning (DAT640)
Emnet tilbyr en innføring i teknikker og metoder for behandling, uthenting og søk i store tekstlige datasamlinger. Emnet tar for seg ulike applikasjoner og gir en "hands-on" eksperimentering med "state-of-the-art" algoritmer ved hjelp av eksisterende programvareverktøy og datasamlinger.
Dette er emnebeskrivelsen for studieåret 2025-2026. Merk at det kan komme endringer.
Emnekode
DAT640
Versjon
1
Vekting (stp)
10
Semester undervisningsstart
Høst
Antall semestre
1
Vurderingssemester
Høst
Undervisningsspråk
Engelsk
Innhold
NB! Dette er et valgemne og dersom det er færre enn 10 studenter oppmeldt pr. 20. august, kan dette medføre at emnet ikke tilbys.
- Tekstpreprosessering, indeksering
- Representasjonslæring (ordinnbygging)
- Kategorisering av tekst
- Søkemotorarkitektur
- Gjenfinningsmetoder (vektor-rom modell, probabilistiske modeller, learning-to-rank, nevrale modeller)
- Gjenfinningsevaluering
- Query modellering, relevant tilbakemelding
- Websøk (lenkeanalyse)
- Semantisk søk (kunnskapsbaser, enhetsgjenfinning, enhetslenking)
- Informasjonstilgang med samtaleagenter
- Transformatorer og store språkmodeller
Læringsutbytte
Kunnskap:
- Teori og praksis innen datautvinning og informasjonssøk. Ulike metoder og teknikker vil bli gjennomgått.
Ferdigheter:
- Prosessere og forberede storskala tekstlige datasamlinger for utvinning og søk.
- Bruke clustering, klassifisering og rangeringsmetoder til en rekke informasjonstilgangsoppgaver.
- Evaluere resultater og utføre feilanalyse.
Generell kompetanse:
- Forstå styrker og begrensninger av populære datautvinning- og informasjonssøkteknikker. Kunne identifisere gode forretningsapplikasjoner og være aktiv deltaker og lede slike prosjekter.
Forkunnskapskrav
Eksamen / vurdering
Prosjektoppgave og skriftlig eksamen
Vurderingsform | Vekting | Varighet | Karakter | Hjelpemiddel |
---|---|---|---|---|
Prosjektoppgave | 1/2 | Bokstavkarakterer | ||
Skriftlig eksamen | 1/2 | 4 Timer | Bokstavkarakterer | Alle hjelpemidler er tillatt – det er ikke tillatt å samarbeide / få hjelp av andre personer i arbeidet med eksamensoppgaven |
Fagperson(er)
Faglærer:
Krisztian BalogFaglærer:
Petra GaluscakovaInstituttleder:
Tom RyenArbeidsformer
6 timer forelesning/laboratorieøvinger pr. uke.
Overlapping
Emne | Reduksjon (SP) |
---|---|
Websøk og data mining (DAT630_1) | 5 |