Adattudományi bevezetés: Adattudomány fogalma, története, folyamata (CRISP-DM), feladata és alkalmazásai. Attribútumok, adathalmazok és adathibák, Big Data, gépi tanulás alapfeladatai.
Adatfeltárás, előkészítés és hasonlósági mértékek: Adatelőkészítés, felderítő elemzés és vizualizáció, összegző statisztikák, mintavételezés, attribútum-aggregációk, transzformációk, diszkretizálás. Minkowski-távolság és speciális esetei, Mahalanobis-távolság, koszinusztávolság, SMC, Jaccard-együttható, Hamming-távolság, DTW.
kNN és döntési fa modellek: Legközelebbi szomszéd módszere, gyorsítások (K-d fa, CNN), Bayes-osztályozó, döntési fa, Hunt-algoritmus, vágás jósága, inhomogenitási mértékek, kiértékelések.
Túltanulás, modellek kiértékelése: Általánosító képesség, tanító-, teszt- és validációs halmaz. Keresztvalidáció, alul- és túltanulás, Occam borotvája, döntési fa metszése, tévesztési mátrix, teljesítménymutatók, ROC, AUC.
Naiv Bayes és Bayes hálók: Bayes-osztályozó elve, a posteriori és maximum likelihood becslés, becslés normális eloszlással, Laplace- és m-becslés, naiv Bayes értékelése, Bayes-hálók, riasztó hálózat, feltételes függetlenség.
Lineáris regresszió: Paraméteres és nemparaméteres regresszió, kNN és döntési fa regressziós problémára, MSE, MSE és szórás felbontása, torzítás–variancia átváltás, regresszió optimális megoldása, lineáris regresszió, gradiens módszer, sztochasztikus gradiens módszer, tanulóráta, regularizáció, polinomiális regresszió.
Logisztikus regresszió és SVM: Osztályozás regresszió által, szigmoid függvény, logisztikus regresszió célfüggvénye, lineáris szeparálhatóság, nemlineáris döntési határ, logit modell, maximális margó, szupport vektorok és SVM, minimalizálási feladat, magasabb dimenzióba való transzformálás, többosztályos osztályozás megoldása.
Neurális hálók: Biológiai motiváció, aktivációs függvények, perceptron és kapcsolata más algoritmusokkal, logikai függvények tanítása, többrétegű neurális hálózat, forward propagation, hiba visszaterjesztés.
Együttes módszerek osztályozásra: Ensemble módszerek, bagging, metamodellek, boosting és AdaBoost, gradient boosting, véletlen erdő, félig felügyelt tanulás, kiegyensúlyozatlan adatok osztályozása, SMOTE.
Klaszterezés: Klaszterezés fogalma, típusai, klaszterező algoritmusok, másodfajú Stirling-szám, Kleinberg-féle lehetetlenségi tétel, k-közép algoritmus, kettévágó k-közép, hierarchikus klaszterezés, klaszterek távolsága, egyszerű és teljes láncmódszer, DBSCAN algoritmus, mag-, határ- és zajpontok, k-medoid, fuzzy c-közép, Gauss-keverékmodell, EM algoritmus, klaszterezések validációja (távolságmátrixok, SSE, sziluett).
Ajánlórendszerek: Tartalom alapú megközelítés, kollaboratív szűrő, legközelebbi szomszéd alapú módszerek, fejlett faktorok modellje, mátrixfaktorizáció.
Dimenziócsökkentés: Sok dimenzió előnye és hátránya, dimenzió átka, nagy dimenziós paradoxonok, dimenziócsökkentés módszerei, jellemzőkiválasztás módszerei, főkomponens-analízis, független komponens-elemzés.
Asszociációs szabályok: Vásárlási tranzakciók, támogatottság, megbízhatóság, szabályok keresése, brute force, kétlépcsős megközelítés, apriori elv és algoritmus, maximális és zárt elemhalmazok, szabálygenerálás brute force és apriori elven, lift mutató.
Anomáliák (outlierek) detektálása: Outlierek okai, anomáliadetektálás céljai és aspektusai, alkalmazások, detektálási módszerek, anomáliatípusok, felügyelt anomáliakeresés, anomáliakeresés statisztikai alapon, klaszterezéssel, legközelebbi szomszéd alapon, sűrűség alapon, LOF-módszer, izoláló fa/erdő, konvex burok, féltérmélység, detektálás dimenziócsökkentés után, környezeti és kollektív anomáliák keresése, online módszerek.
Hálózatok, PageRank: Gráfreprezentációk, valós hálózatok és azok tulajdonságai, skálafüggetlenség, Erdős–Rényi-modell, preferenciális kapcsolódás modellje, csúcsfontossági mutatók, PageRank alapötlete, „random surfer” modell, Markov-láncok, stacionárius eloszlás, hatványmódszer, PageRank bolyongás, teleportáció jelentősége, PageRank manipulálhatósága, személyre szabott PageRank.
Technológiák
Python: IPython, Anaconda, Jupyter. Könyvtárak: pandas, Scikit-learn, NumPy, SciPy, matplotlib, IPython, Keras, TensorFlow. Tematika: Tömbök kezelése, adatkinyerés a webről (web scraping), adatok szerzése (API), beolvasása (CSV, JSON, XML/HTML), osztályozási és regressziós feladatok, gradiens és ensemble módszer, karakterfelismerés neurális hálóval, PCA, arcfelismerés.
R: RStudio. Csomagok: ggplot2, class, dplyr. Tematika: vektorok, mátrixok, listák, data frame-ek, adatok olvasása fájlból és internetről, vizualizáció, gépi tanulás (osztályozás, regresszió), aggregálás, klaszterezés, box-plot.
Tableau: Mértékek és dimenziók, adatok transzformálása és aggregálása, változók (calculated field) és paraméterek létrehozása, oszlop- és szórásdiagramok, tengelytranszformációk, adatok szűrése, tooltip szerkesztés, referencia vonalak, hisztogram, Python/R integrálása, klaszterezés.
------------------------------------------

