Informasjonsgjenfinning og tekstutvinning (DAT640)

Emnet tilbyr en innføring i teknikker og metoder for behandling, uthenting og søk i store tekstlige datasamlinger. Emnet tar for seg ulike applikasjoner og gir en "hands-on" eksperimentering med "state-of-the-art" algoritmer ved hjelp av eksisterende programvareverktøy og datasamlinger.


Dette er emnebeskrivelsen for studieåret 2025-2026

Se emnebeskrivelse og eksamens-/vurderingsinfo for dette studieåret (2024-2025)
Fakta

Emnekode

DAT640

Versjon

1

Vekting (stp)

10

Semester undervisningsstart

Høst

Antall semestre

1

Vurderingssemester

Høst

Undervisningsspråk

Engelsk

Innhold

NB! Dette er et valgemne og dersom det er færre enn 10 studenter oppmeldt pr. 20. august, kan dette medføre at emnet ikke tilbys.

  • Tekstpreprosessering, indeksering
  • Representasjonslæring (ordinnbygging)
  • Kategorisering av tekst
  • Søkemotorarkitektur
  • Gjenfinningsmetoder (vektor-rom modell, probabilistiske modeller, learning-to-rank, nevrale modeller)
  • Gjenfinningsevaluering
  • Query modellering, relevant tilbakemelding
  • Websøk (lenkeanalyse)
  • Semantisk søk (kunnskapsbaser, enhetsgjenfinning, enhetslenking)
  • Informasjonstilgang med samtaleagenter
  • Transformatorer og store språkmodeller

Læringsutbytte

Kunnskap:

  • Teori og praksis innen datautvinning og informasjonssøk. Ulike metoder og teknikker vil bli gjennomgått.

Ferdigheter:

  • Prosessere og forberede storskala tekstlige datasamlinger for utvinning og søk.
  • Bruke clustering, klassifisering og rangeringsmetoder til en rekke informasjonstilgangsoppgaver.
  • Evaluere resultater og utføre feilanalyse.

Generell kompetanse:

  • Forstå styrker og begrensninger av populære datautvinning- og informasjonssøkteknikker. Kunne identifisere gode forretningsapplikasjoner og være aktiv deltaker og lede slike prosjekter.

Forkunnskapskrav

Ingen

Eksamen / vurdering

Prosjektoppgave og skriftlig eksamen

Vurderingsform Vekting Varighet Karakter Hjelpemiddel
Prosjektoppgave 1/2 Bokstavkarakterer
Skriftlig eksamen 1/2 4 Timer Bokstavkarakterer Alle hjelpemidler er tillatt – det er ikke tillatt å samarbeide / få hjelp av andre personer i arbeidet med eksamensoppgaven

Fagperson(er)

Instituttleder:

Tom Ryen

Arbeidsformer

6 timer forelesning/laboratorieøvinger pr. uke.

Overlapping

Emne Reduksjon (SP)
Websøk og data mining (DAT630_1) 5

Åpent for

Data Science - master i teknologi/siv.ing., deltid Datateknologi - master i teknologi
Utveksling ved Det teknisk-naturvitenskapelige fakultet

Opptakskrav

Søkeren må oppfylle opptakskravet til et av studieprogrammene som emnet er åpent for.

Emneevaluering

Fakultetet bestemmer om det skal gjennomføres tidligdialog i alle, eller grupper av emner som tilbys ved fakultetet. Formålet er tilbakemelding fra studentene for endringer og justering i emnet inneværende semester. I tillegg skal det gjennomføres en digital evaluering, studentenes emneevaluering, minimum hvert tredje år. Den har som formål å innhente studentenes erfaringer med emnet.

Litteratur

Pensumlisten finner du i Leganto