Emne

Data Engineering (DAT535)

Fakta

Emnekode DAT535

Vekting (stp) 5

Semester undervisningsstart Høst

Undervisningsspråk Engelsk

Antall semestre 1

Vurderingssemester Høst

Timeplan Vis timeplan

Litteratur Søk etter pensumlitteratur i Leganto

Introduksjon

Emnet gir et grunnlag i datahåndtering, ytelsesoptimalisering, integrasjon og etiske aspekter ved utvikling av datadrevne løsninger.

Innhold

Fremveksten av Big Data og dataintensive systemer som spesialiserte felt innen databehandling har motivert utviklingen av nye teknikker og teknologier som trengs for å trekke ut kunnskap fra store datasett. Siden Hadoop ble unnfanget i 2005, begynte den populære interessen for dataintensive systemer å vokse. Det resulterte - over tid - i en samling av teknologier, metoder og praksis for å dekke hele datalivssyklusen.

Dette emnet er et første skritt til en rekke roller relatert til dataintensive systemer. Kjerneoppgavene i disse rollene som vi skal ta for oss er: roller i et datateam, datainnsamling og integrasjon (ved hjelp av filer, APIer, etc.), datarensing og augmentering (ofte ved bruk av direkte implementering av MapReduce-jobber), dataanalyse og ML (ofte ved å bruke et av databehandlingsrammeverket, f.eks. SparkSQL, MLlib), forfremming av teknologi anvendelse både i tekniske og ikke-tekniske omgivelser, og gir introduksjonstrening til kolleger.

Læringsutbytte

Kunnskap

  • Forståelse av medaljongarkitektur: Studentene vil få en omfattende forståelse av medaljongarkitekturen, inkludert lagene (bronse, sølv og gull) og hvordan den støtter databehandling og analyse.
  • Apache Spark Fundamentals: Studentene vil lære kjernekonseptene til Apache Spark, inkludert dens arkitektur, komponenter og hvordan den håndterer stordatabehandling.
  • Dataadministrasjon og -styring: Kunnskap om datastyringsprinsipper, datastyring og beste praksis for å sikre datakvalitet og integritet.
  • Big Data Ecosystem: Kjennskap til det bredere big data-økosystemet, inkludert verktøy og teknologier som utfyller Apache Spark, som Hadoop, Kafka, Delta Lake, NOSQL-databaser.

Ferdigheter

  • Databehandling og transformasjon: Ferdighet i å bruke Apache Spark til databehandlingsoppgaver, inkludert batch- og strømbehandling, datarensing og transformasjon.
  • Ytelsesjustering: Ferdigheter i å optimalisere Apache Spark-jobber for ytelse, inkludert ressursadministrasjon, partisjonering og tuning av Spark-konfigurasjoner.
  • Dataintegrasjon: Kompetanse i å integrere data fra ulike kilder og formater til en enhetlig dataplattform ved bruk av Medallion Architecture-prinsipper.
  • Problemløsning: Evne til å feilsøke og løse problemer knyttet til datapipelines, datakvalitet og flaskehalser i ytelse.

Generelle kvalifikasjoner:

  • Samarbeid og kommunikasjon: Effektive kommunikasjons- og samarbeidsevner for å jobbe med tverrfunksjonelle team som implementerer dataintensive løsninger.
  • Etiske hensyn: Bevissthet om etiske hensyn i datateknikk, inkludert personvern, sikkerhet og ansvarlig databruk.

Forkunnskapskrav

Python programmering

Anbefalte forkunnskaper

Databaser (DAT220), Operativsystemer og systemprogrammering (DAT320), Nettskyteknologier (DAT515)

Bash-programmering

Administrasjon av sky- og containerbaserte miljøer

Databaser, SQL

Eksamen / vurdering

Prosjektoppgave

Vekt 1/1

Varighet 6 Uker

Karakter Bokstavkarakterer

Hjelpemiddel Alle

Prosjektet gjennomføres i grupper. Prosjektet varer i 8 uker i tillegg til obligatoriske laboratorier som gir grunnlag for prosjektet.

Ved bruk av kunstig intelligens i vurderingen skal studenten dokumentere dette ved å fylle ut og levere egenerklæringsskjema. Hvis du leverer inn tekst, utregninger m.m. som er direkte kopiert fra en skriverobot, blir dette ansett som å presentere andres arbeid som sitt eget, og dermed fusk.

Det tilbys ingen kontinuasjonsmuligheter for prosjektoppgaver. Studenter som ikke består prosjektet kan ta det på nytt neste gang emnet holdes.

Vilkår for å gå opp til eksamen/vurdering

Obligatoriske øvinger, Muntlig presentasjon

Tre oppgaver.

Studentene starter med 3 obligatoriske oppgaver som inneholder programmering og systemadministrasjon. Oppgavene skal gjennomføres individuelt. Alle obligatoriske oppgaver må bestås innen fristen slik at studenten har rett til å starte med prosjektet. De obligatoriske oppgavene gir tilgang til prosjektet kun i inneværende semester.

Gjennomføring av obligatoriske laboratorieoppgaver skal gjøres til de tider og i gruppene som tildeles og publiseres. Fravær på grunn av sykdom eller andre årsaker skal snarest meldes til laboratoriepersonellet. Man kan ikke forvente at det foretas bestemmelser om gjennomføring av laboratorieoppgavene på andre tidspunkter med mindre det er avtalt på forhånd med laboratoriepersonellet.

Alle gruppemedlemmer skal delta i prosjektpresentasjonen.

Arbeidsformer

Arbeidet vil bestå av 4 timer forelesning, planlagt laboratorium, veiledet gruppearbeid per uke med oppstart i september. Studentene forventes å bruke ytterligere 6-8 timer i uken på selvstudier, gruppediskusjoner og utviklingsarbeid (åpent laboratorium).

Overlapping

Emne Reduksjon (SP)
Data-intensive systemer (DAT500_1) , Data Engineering (DAT535_1) 5

Åpent for

Enkeltemner på masternivå ved Det teknisk-naturvitenskapelige fakultet
Data Science Datateknologi Datateknologi - master i teknologi, deltid
Utveksling ved Det teknisk-naturvitenskapelige fakultet

Opptakskrav

Søkeren må oppfylle opptakskravet til et av studieprogrammene som emnet er åpent for.

Emneevaluering

Fakultetet avgjør om det skal gjennomføres tidligdialog i alle emner eller i utvalgte grupper av emner. Formålet er å få tilbakemeldinger fra studentene for forbedringer i semesteret. I tillegg skal det gjennomføres en digital emneevaluering minst hvert tredje år for å innhente studentenes erfaringer.
Emnebeskrivelsen er hentet fra Felles studentsystem Versjon 1