Hopp til hovedinnhold

Informasjonsgjenfinning og tekstutvinning DAT640

Kurset tilbyr en innføring i teknikker og metoder for behandling, uthenting og søk i store tekstlige datasamlinger. Kurset tar for seg ulike applikasjoner og gir en "hands-on" eksperimentering med "state-of-the-art" algoritmer ved hjelp av eksisterende programvareverktøy og datasamlinger.


Dette er emnebeskrivelsen for studieåret 2022-2023

Fakta
Emnekode

DAT640

Versjon

1

Vekting (Sp)

10

Semester undervisningsstart

Høst

Antall semestre

1

Vurderingssemester

Høst

Undervisningsspråk

Engelsk

Innhold
  • Søkemotorarkitektur
  • Tekstpreprosessering, indeksering, representasjonslæring
  • Gjenfinningsmetoder (vektor-rom modell, probabilistiske modeller, learning-to-rank, nevrale modeller)
  • Gjenfinningsevaluering
  • Query modellering, relevant tilbakemelding
  • Websøk (gjennomsøking, indeksering, lenkeanalyse)
  • Semantisk søk (kunnskapsbaser, enhetsgjenfinning, enhetslenking)
  • Gruppering av tekst
  • Kategorisering av tekst
Læringsutbytte

Kunnskap:

  • Teori og praksis innen datautvinning og informasjonssøk. Ulike metoder og teknikker vil bli gjennomgått.

Ferdigheter:

  • Prosessere og forberede storskala tekstlige datasamlinger for utvinning og søk.
  • Bruke clustering, klassifisering og rangeringsmetoder til en rekke informasjonstilgangsoppgaver.
  • Evaluere resultater og utføre feilanalyse.

Generell kompetanse:

  • Forstå styrker og begrensninger av populære datautvinning- og informasjonssøkteknikker. Kunne identifisere gode forretningsapplikasjoner og være aktiv deltaker og lede slike prosjekter.
Forkunnskapskrav
Ingen
Eksamen / vurdering

Prosjektoppgave og skriftlig eksamen

Vurderingsform Vekting Varighet Karakter Hjelpemiddel
Prosjektoppgave 2/5 Bokstavkarakterer
Skriftlig eksamen 3/5 4 Timer Bokstavkarakterer Alle trykte eller håndskrevne hjelpemidler tillatt. Bestemt, enkel kalkulator tillatt

Prosjektet er en kombinasjon av individuelle og gruppeoppgaver. Prosjektgrupper blir satt opp av faglærer. Det er ikke kontemuligheter på prosjektsoppgaven. Studenter som ønsker å ta denne delen på nytt, må ta den opp igjen neste gang emnet har ordinær undervisning.Alle vurderingsdeler må være bestått for å oppnå samlet karakter i emnet.

Fagperson(er)
Emneansvarlig: Krisztian Balog
Faglærer: Ivica Kostric
Instituttleder: Tom Ryen
Arbeidsformer
6 timer forelesning/laboratorieøvinger pr. uke.
Overlapping
Emne Reduksjon (SP)
Websøk og data mining (DAT630_1) 5
Åpent for
Enkeltemner ved Det teknisk-naturvitenskaplige fakultet Datateknologi, master i teknologi/siv.ing. Kybernetikk og robotteknologi - Master i teknologi/siv.ing. - 5 år Utveksling ved Det teknisk- naturvitenskapelige fakultet
Emneevaluering
Skjer vanligvis gjennom skjema og/eller samtaler i henhold til gjeldende retningslinjer.
Litteratur
Pensumlisten finner du i Leganto