A tárgy célja az adattudomány alapfogalmainak a korábban megszerzett matematikai ismeretekre épülő, gyakorlati megközelítésű megismertetése. A hallgatók a kezdetektől teljes, a gyakorlati életből vett valós alkalmazási példákon keresztül az ismereteket megtapasztalva, egyfajta spirál
mentén egyre mélyebbre haladva precíz elméleti és egyúttal praktikus gyakorlati ismeretekhez jutnak. Az elméleti ismeretek ge rincét a gépi tanulás algoritmusai adják, a gyakorlati feladatok építenek a Python nyelv ismeretére.
Előadás: Történet, példák, esettanulmányok, az adattudományba sorolható diszciplínák. Ellenőrzött tanulás - Lineáris Modellek + modell validálás. Legkisebb négyzetek módszere. Lineáris Regresszió. Gradiens módszer, maximum-likelihood becslés. Polinomiális regresszió, logisztikus regresszió, Perceptron, Newton-módszer, Naive-Bayes. Általánosított lineáris modellek (Exponenciális család), tanulási/validációs/tesztelési halmaz, cross-validáció, Bias-Variance tradeoff, regularizáció, Precision-Recall, F1-score, ROC görbe. SVM, lineáris SVM, kernel trükk. Neurális hálók. Döntési fák. Véletlen erdők. Boosting. Nem Ellenőrzött tanulás. Klaszterezés. K-means klaszterezés. EM algoritmus. PCA, ICA. Nagyobb esettanulmányok, kitekintés.
Gyakorlat: Az adatmanipulálás, prediktív analízis, megjelenítés lépései valódi adatokkal (pl. kaggle) elsősorban Python-csomagok (pandas, scikit- learn, matplotlib, ggplot) és R használatával.