Analiza velikih skupova podataka

Analiza velikih skupova podataka

Uključene obrazovne institucije

Univerzitet u Nišu

Dostupan u okviru programa

Master 4.0: Inteligentna analiza podataka (izborni)

Kratki program studija: Napredni algoritmi za inteligentnu analizu podataka (izborni)

Upoznavanje sa konceptom velikih i kompleksnih skupova podataka: osnovnim karakteristikama, tehnologijama i neophodnoj infrastrukturi za prikupljanje, čuvanje i obradu podataka. Poseban akcenat je na razumevanju Apache Hadoop platforme kao osnove za distribuiranu obradu velikih skupova podataka. Detaljno upoznavanje Apache Spark platforme i primena postojećih funkcionalnosti u analizi velikih skupova podataka. Izučavanje komponenti Spark ekosistema: Spark Streaming, GraphX i Spark SQL. Upoznavanje sa MLib, Spark bibliotekom za mašinsko učenje i implementacija kompleksnih algoritama mašinskog učenja primenom MLib funkcija.

Ovladavanje osnovnim znanjima neophodnim za prepoznavanje i rešavanje problema koji spadaju u domen velikih skupova podataka. Korišćenje Hadoop platforme za čuvanje i obradu velikih skupova podataka. Sticanje znanja o arhitekturi Spark platforme kao i veština za njenu primenu u distribuciji podataka i paralelno izvršavanje zadataka nad podacima. Osposobljavanje za primenu različitih scenarija obrade podataka zasnovanih na kombinaciji Spark SQL, Spark Streaming i kompleksnoj analitici podataka. Razumevanje primene GraphX biblioteke u rešavanju problema mrežne analize. Ovladavanje veštinama programiranja u Spark platformi korišćenjem Pyspark-a. Implementacija algoritama Mašinskog učenja primenom MLib biblioteke. Ovladavanje praktičnim znanjima kroz laboratorijske vežbe. Sticanje znanja i veština koje predstavljaju kvalitetnu osnovu za angažovanje na poslovima fundamentalnih, razvojnih i primenjenih istraživanja u oblasti Data science.

Teorijska nastava

Uvod u analitiku velikih skupova podataka korišćenjem Apache Spark platforme. Apache Spark API (application program interface). Obrada podataka primenom Spark tehnologije. Spark streaming modul. Mašinsko učenje primenom Spark-a Mllib. Spark GraphX modul.

Praktična nastava

Vežbe u računskom centru. Obrađuju se i implementiraju primeri u skladu sa teorijskom nastavom.