Hopp til hovedinnhold

Informasjonsgjenfinning og tekstutvinning DAT640

Kurset tilbyr en innføring i teknikker og metoder for behandling, uthenting og søk i store tekstlige datasamlinger. Kurset tar for seg ulike applikasjoner og gir en "hands-on" eksperimentering med "state-of-the-art" algoritmer ved hjelp av eksisterende programvareverktøy og datasamlinger.


Dette er emnebeskrivelsen for studieåret 2021-2022. Merk at det kan komme endringer.

Fakta
Emnekode

DAT640

Vekting (SP)

10

Semester undervisningsstart

Høst

Antall semestre

1

Vurderingsemester

Høst

Undervisningsspråk

Engelsk

Tilbys av

Det teknisk-naturvitenskapelige fakultet, Institutt for data- og elektroteknologi

Læringsutbytte

Kunnskap:

  • Teori og praksis innen datautvinning og informasjonssøk. Ulike metoder og teknikker vil bli gjennomgått.

Ferdigheter:

  • Prosessere og forberede storskala tekstlige datasamlinger for utvinning og søk.
  • Bruke clustering, klassifisering og rangeringsmetoder til en rekke informasjonstilgangsoppgaver.
  • Evaluere resultater og utføre feilanalyse.

Generell kompetanse:

  • Forstå styrker og begrensninger av populære datautvinning- og informasjonssøkteknikker. Kunne identifisere gode forretningsapplikasjoner og være aktiv deltaker og lede slike prosjekter.
Innhold
  • Søkemotorarkitektur
  • Tekstpreprosessering og indeksering
  • Gjenfinningsmetoder (vektor-rom modell, probabilistiske modeller, learning-to-rank, nevrale modeller)
  • Gjenfinningsevaluering
  • Query modellering, relevant tilbakemelding
  • Websøk (gjennomsøking, indeksering, lenkeanalyse)
  • Semantisk søk (kunnskapsbaser, enhetsgjenfinning, enhetslenking)
  • Gruppering av tekst
  • Kategorisering av tekst
Forkunnskapkrav
Ingen
Eksamen / vurdering

Prosjektoppgave og skriftlig eksamen

Vurderingsform Vekting Varighet Karakter Hjelpemiddel
Prosjektoppgave 2/5 A - F
Skriftlig eksamen 3/5 4 Timer A - F

Prosjektet er en kombinasjon av individuelle og gruppeoppgaver. Prosjektgrupper blir satt opp av faglærer. Det er ikke kontemuligheter på prosjektsoppgaven. Studenter som ønsker å ta denne delen på nytt, må ta den opp igjen neste gang emnet har ordinær undervisning.Alle vurderingsdeler må være bestått for å oppnå samlet karakter i emnet.Hjelpemidler til eksamen:alt skriftlig og trykt materiale, og godkjent enkel kalkulator

Fagperson(er)
Emneansvarlig: Krisztian Balog
Ansvarlig laboratorieøvelser: Ivica Kostric
Emneansvarlig: Krisztian Balog
Instituttleder: Tom Ryen
Arbeidsformer
6 timer forelesning/laboratorieøvinger pr. uke.
Åpent for
Enkeltemner ved Det teknisk-naturvitenskaplige fakultet Datateknologi - Master program Kybernetikk og robotteknologi - Master i teknologi/siv.ing. - 5 år
Emneevaluering
Skjer vanligvis gjennom skjema og/eller samtaler i henhold til gjeldende retningslinjer.
Overlapping
Emne Reduksjon (SP)
Websøk og data mining (DAT630) 5
Litteratur
Søk etter pensumlitteratur i Leganto