MENY
Dette er studietilbudet for studieår 2019-2020. Endringer kan komme.


Kurset gir en innføring i planlegging, design og programmering av dataintensive systemer.

Læringsutbytte


Kunnskap:
  • Karakterisere Hadoop job tracker, task tracker, planleggingssaker, kommunikasjon, og ressursforvaltning; - Beskrive elementer av Hadoop økosystem og identifisere dets anvendelser; - Beskrive og sammenligne RDBMS, datavarehus, ustrukturerte stordatasett, og "keyed files", og vise hvordan du kan bruke de til vanlige dataprosesseringsoppgaver; - Forstå algoritmisk kompleksitet (verste fall, forventet tilfelle, og beste fall), kjøretid, og orden av kompleksitet; anvende analysen på virkelige algoritmer;

Ferdigheter:
  • Utforme, konstruere, teste og benchmarke et lite datacluster (basert på Hadoop); - Analysere virkelige problemer og foreslå egnede løsninger; - Konstruere programmer basert direkte på MapReduce paradigme for typiske problemer; - Konstruere programmer basert på høyt nivå verktøy (for MapReduce paradigme) for typiske problemer; - Analysere påvirkning av maksimal og vedvarende dataoverføringshastighet på systemets ytelse;

Generelle kvalifikasjoner:
  • Evaluere, kommunisere og forsvare en datakrevende løsning mht relevante kriterier.

Innhold

Fremveksten av Big Data-og data intensive systemer som spesialiserte felt i databehandling motiverer utvikling av nye teknikker og teknologier for å hente kunnskap fra store datasett. Siden Hadoop ble unnfanget i 2005, har interessen for data intensive systemer begynte å vokse. Dette kurset er et første skritt til en forståelse av en rekke roller knyttet til dataintensive systemer. Kjerneoppgavene i rollene som vi vil ta opp er: Systemadministrasjon (oppsett, test og benchmark av cluster), lavnivå algoritmedesign og implementering (direkte implementering av MapReduce jobber), høynivå algoritmedesign og implementering (bruk av dataprosesseringsspråk som HiveQL), datamodellering og algoritmeoptimalisering, pålitelig infrastruktur design for datainnsamling og bearbeiding, brukerveiledning for både teknisk og ikke-teknisk personell.

Forkunnskapskrav

Ingen.

Eksamen/vurdering

Vekting Varighet Karakter Hjelpemidler
Prosjektoppgave med muntlig fremføring1/1 A - FAlle.

Prosjektoppgave med muntlig fremføring. Prosjekt løses i grupper.

Begge deler må gjennomføres før endelig karakter fastsettes. Gruppemedlemmene kan få ulik karakter basert på den muntlige gjennomgangen.

Hvis en student ikke består prosjektoppgaven, må hun/han ta dette om igjen neste gang kurset undervises.

Vilkår for å gå opp til eksamen/vurdering

Fire innleveringsoppgaver

Studenter skal begynne med 4 obligatoriske oppgaver som inneholder programmering og system administrasjon. Obligatorske oppgaver løses alene. Alle obligatoriske oppgaver må være bestått innen fristen for at studenten skal kunne starte med prosjektet.

Gjennomføring av obligatoriske laboratorieoppgaver skal gjøres på de tidene og i de gruppene som er tildelt og publisert. Fravær på grunn av sykdom eller av andre grunner må formidles så snart som mulig til laboratoriepersonell. Man kan ikke forvente å få gjennomføre av laboratorieoppgaver utenom oppsatt tid hvis dette ikke er kommunisert og avtalt med laboratoriepersonalet.

Fagperson(er)

Emneansvarlig
Tomasz Wiktorski
Instituttleder
Tom Ryen

Arbeidsformer

Arbeidet vil bestå av 6 timer forelesning, planlagt laboratorium, veiledet gruppearbeid per uke. Det forventes at studenter bruker ytterligere 6-8 timer i uken på selvstudium, gruppediskusjoner og utviklingsarbeid (åpen lab).

Åpent for

Bachelor - og masterstudenter ved Det teknisk-naturvitenskapelige fakultet.

Emneevaluering

Skjer vanligvis gjennom skjema og/eller samtaler i henhold til gjeldende retningslinjer.

Litteratur


Wiktorski, T. (2018). Data-intensive Systems. Principles and Fundamentals using Hadoop and Spark. "SpringerNature", 978-3-030-04602-6

White, T. (2012). Hadoop: The definitive guide. "O'Reilly Media, Inc.". 978-1-449-31152-0


Dette er studietilbudet for studieår 2019-2020. Endringer kan komme.

Sist oppdatert: 18.02.2019