Tantárgy azonosító adatok
1. A tárgy címe Bevezetés az adattudományba
2. A tárgy angol címe Introduction to Data Science
3. Heti óraszámok (ea + gy + lab) és a félévvégi követelmény típusa 3 + 1 + 1 v Kredit 7
4. Ajánlott/kötelező előtanulmányi rend
vagy Tantárgy kód 1 Rövid cím 1 Tantárgy kód 2 Rövid cím 2 Tantárgy kód 3 Rövid cím 3
4.1 BMETE80AF38 Introduction to Experimental Data Handling BMETE15AP61 Introduction to Machine Learning
4.2
4.3
5. Kizáró tantárgyak
Bevezetés az adattudományba 1 (BMETE95AM36)
6. A tantárgy felelős tanszéke Sztochasztika Tanszék
7. A tantárgy felelős oktatója Dr. Molontay Roland beosztása egyetemi docens
Akkreditációs adatok
8. Akkreditációra benyújtás időpontja 2025.10.15 Akkreditációs bizottság döntési időpontja 2025.11.03.
Tematika
9. A tantárgy az alábbi témakörök ismeretére épít
Python programozás, lineáris algebra, diszkrét matematika, statisztika
10. A tantárgy szerepe a képzés céljának megvalósításában (szak, kötelező, kötelezően választható, szabadon választható)
TTK Fizikus-mérnöki BSc Scientific Data Processing specializáció kötelező tárgya
11. A tárgy részletes tematikája

Adattudományi bevezetés: Adattudomány fogalma, története, folyamata (CRISP-DM), feladata és alkalmazásai. Attribútumok, adathalmazok és adathibák, Big Data, gépi tanulás alapfeladatai.

Adatfeltárás, előkészítés és hasonlósági mértékek: Adatelőkészítés, felderítő elemzés és vizualizáció, összegző statisztikák, mintavételezés, attribútum-aggregációk, transzformációk, diszkretizálás. Minkowski-távolság és speciális esetei, Mahalanobis-távolság, koszinusztávolság, SMC, Jaccard-együttható, Hamming-távolság, DTW.

kNN és döntési fa modellek: Legközelebbi szomszéd módszere, gyorsítások (K-d fa, CNN), Bayes-osztályozó, döntési fa, Hunt-algoritmus, vágás jósága, inhomogenitási mértékek, kiértékelések.

Túltanulás, modellek kiértékelése: Általánosító képesség, tanító-, teszt- és validációs halmaz. Keresztvalidáció, alul- és túltanulás, Occam borotvája, döntési fa metszése, tévesztési mátrix, teljesítménymutatók, ROC, AUC.

Naiv Bayes és Bayes hálók: Bayes-osztályozó elve, a posteriori és maximum likelihood becslés, becslés normális eloszlással, Laplace- és m-becslés, naiv Bayes értékelése, Bayes-hálók, riasztó hálózat, feltételes függetlenség.

Lineáris regresszió: Paraméteres és nemparaméteres regresszió, kNN és döntési fa regressziós problémára, MSE, MSE és szórás felbontása, torzítás–variancia átváltás, regresszió optimális megoldása, lineáris regresszió, gradiens módszer, sztochasztikus gradiens módszer, tanulóráta, regularizáció, polinomiális regresszió.

Logisztikus regresszió és SVM: Osztályozás regresszió által, szigmoid függvény, logisztikus regresszió célfüggvénye, lineáris szeparálhatóság, nemlineáris döntési határ, logit modell, maximális margó, szupport vektorok és SVM, minimalizálási feladat, magasabb dimenzióba való transzformálás, többosztályos osztályozás megoldása.

Neurális hálók: Biológiai motiváció, aktivációs függvények, perceptron és kapcsolata más algoritmusokkal, logikai függvények tanítása, többrétegű neurális hálózat, forward propagation, hiba visszaterjesztés.

Együttes módszerek osztályozásra: Ensemble módszerek, bagging, metamodellek, boosting és AdaBoost, gradient boosting, véletlen erdő, félig felügyelt tanulás, kiegyensúlyozatlan adatok osztályozása, SMOTE.

Klaszterezés: Klaszterezés fogalma, típusai, klaszterező algoritmusok, másodfajú Stirling-szám, Kleinberg-féle lehetetlenségi tétel, k-közép algoritmus, kettévágó k-közép, hierarchikus klaszterezés, klaszterek távolsága, egyszerű és teljes láncmódszer, DBSCAN algoritmus, mag-, határ- és zajpontok, k-medoid, fuzzy c-közép, Gauss-keverékmodell, EM algoritmus, klaszterezések validációja (távolságmátrixok, SSE, sziluett).

Ajánlórendszerek: Tartalom alapú megközelítés, kollaboratív szűrő, legközelebbi szomszéd alapú módszerek, fejlett faktorok modellje, mátrixfaktorizáció.

Dimenziócsökkentés: Sok dimenzió előnye és hátránya, dimenzió átka, nagy dimenziós paradoxonok, dimenziócsökkentés módszerei, jellemzőkiválasztás módszerei, főkomponens-analízis, független komponens-elemzés.

Asszociációs szabályok: Vásárlási tranzakciók, támogatottság, megbízhatóság, szabályok keresése, brute force, kétlépcsős megközelítés, apriori elv és algoritmus, maximális és zárt elemhalmazok, szabálygenerálás brute force és apriori elven, lift mutató.

Anomáliák (outlierek) detektálása: Outlierek okai, anomáliadetektálás céljai és aspektusai, alkalmazások, detektálási módszerek, anomáliatípusok, felügyelt anomáliakeresés, anomáliakeresés statisztikai alapon, klaszterezéssel, legközelebbi szomszéd alapon, sűrűség alapon, LOF-módszer, izoláló fa/erdő, konvex burok, féltérmélység, detektálás dimenziócsökkentés után, környezeti és kollektív anomáliák keresése, online módszerek.

Hálózatok, PageRank: Gráfreprezentációk, valós hálózatok és azok tulajdonságai, skálafüggetlenség, Erdős–Rényi-modell, preferenciális kapcsolódás modellje, csúcsfontossági mutatók, PageRank alapötlete, „random surfer” modell, Markov-láncok, stacionárius eloszlás, hatványmódszer, PageRank bolyongás, teleportáció jelentősége, PageRank manipulálhatósága, személyre szabott PageRank.


Technológiák

Python: IPython, Anaconda, Jupyter. Könyvtárak: pandas, Scikit-learn, NumPy, SciPy, matplotlib, IPython, Keras, TensorFlow. Tematika: Tömbök kezelése, adatkinyerés a webről (web scraping), adatok szerzése (API), beolvasása (CSV, JSON, XML/HTML), osztályozási és regressziós feladatok, gradiens és ensemble módszer, karakterfelismerés neurális hálóval, PCA, arcfelismerés.

R: RStudio. Csomagok: ggplot2, class, dplyr. Tematika: vektorok, mátrixok, listák, data frame-ek, adatok olvasása fájlból és internetről, vizualizáció, gépi tanulás (osztályozás, regresszió), aggregálás, klaszterezés, box-plot.

Tableau: Mértékek és dimenziók, adatok transzformálása és aggregálása, változók (calculated field) és paraméterek létrehozása, oszlop- és szórásdiagramok, tengelytranszformációk, adatok szűrése, tooltip szerkesztés, referencia vonalak, hisztogram, Python/R integrálása, klaszterezés.
 

Introduction to Data Science: Concept, history, and process (CRISP-DM) of Data Science, its goals and applications. Attributes, datasets, data quality issues, Big Data, basic machine learning tasks.

Data Exploration, Preparation, and Similarity Measures: Data preparation, exploratory data analysis and visualization, summary statistics, sampling, attribute aggregation, transformation, discretization. Minkowski distance and its special cases, Mahalanobis distance, cosine similarity, SMC, Jaccard index, Hamming distance, DTW.

kNN and Decision Trees: Nearest neighbor methods and their accelerations (K-d tree, CNN), Bayes classifier, decision tree, Hunt algorithm, split quality, impurity measures, evaluation.

Overfitting and Model Evaluation: Generalization capability, training, test, and validation sets. Cross-validation, underfitting and overfitting, Occam’s razor, decision tree pruning, confusion matrix, performance metrics, ROC curve, AUC.

Naive Bayes and Bayesian Networks: Bayes classifier principle, a posteriori and maximum likelihood estimation, estimation with normal distribution, Laplace and m-estimation, evaluation of Naive Bayes, Bayesian networks, conditional independence.

Linear Regression: Parametric and nonparametric regression, kNN and decision tree for regression tasks, MSE, decomposition of MSE and variance, bias–variance trade-off, optimal regression solution, linear regression, gradient descent, stochastic gradient descent, learning rate, regularization, polynomial regression.

Logistic Regression and SVM: Classification by regression, sigmoid function, objective function of logistic regression, linear separability, nonlinear decision boundaries, logit model, maximum margin principle, support vectors and SVM, optimization task, kernel trick, handling multiclass classification.

Neural Networks: Biological motivation, activation functions, perceptron and its relationship to other algorithms, learning logical functions, multilayer neural networks, forward propagation, backpropagation.

Ensemble Learning for Classification: Ensemble methods, bagging, metamodels, boosting and AdaBoost, gradient boosting, random forest, semi-supervised learning, classification of imbalanced data, SMOTE.

Clustering: Concept and types of clustering, clustering algorithms, Stirling numbers of the second kind, Kleinberg’s impossibility theorem, k-means algorithm, bisecting k-means, hierarchical clustering, cluster distance measures, single-link and complete-link methods, DBSCAN algorithm, core, border, and noise points, k-medoids, fuzzy c-means, Gaussian mixture models, EM algorithm, cluster validation (distance matrices, SSE, silhouette).

Recommender Systems: Content-based approach, collaborative filtering, nearest-neighbor methods, latent factor models, matrix factorization.

Dimensionality Reduction: Advantages and disadvantages of high dimensionality, curse of dimensionality, high-dimensional paradoxes, dimensionality reduction methods, feature selection techniques, principal component analysis, independent component analysis.

Association Rule Learning: Market basket transactions, support, confidence, rule mining, brute-force and two-step approaches, apriori principle and algorithm, maximal and closed itemsets, rule generation (brute-force and apriori-based), lift measure.

Outlier and Anomaly Detection: Causes, goals, and aspects of anomaly detection, applications, detection methods and anomaly types, supervised and statistical approaches, clustering-based and nearest-neighbor-based detection, density-based methods, local outlier factor (LOF), isolation forest, convex hull, half-space depth, detection after dimensionality reduction, contextual and collective anomalies, online detection methods.

Networks and PageRank: Graph representations, properties of real-world networks, scale-free property, Erdős–Rényi model, preferential attachment model, node centrality measures, PageRank idea, random surfer model, Markov chains, stationary distribution, power method, PageRank walk, importance of teleportation, PageRank manipulability, personalized PageRank.


Technologies

Python: IPython, Anaconda, Jupyter. Libraries: pandas, Scikit-learn, NumPy, SciPy, matplotlib, IPython, Keras, TensorFlow. Topics: array handling, web scraping, data acquisition (API), data import (CSV, JSON, XML/HTML), classification and regression tasks, gradient and ensemble methods, character recognition with neural networks, PCA, face recognition.

R: RStudio. Packages: ggplot2, class, dplyr. Topics: vectors, matrices, lists, data frames, importing data from files and the web, visualization, machine learning (classification, regression), aggregation, clustering, box plots.

Tableau: Measures and dimensions, data transformation and aggregation, creating calculated fields and parameters, bar and scatter plots, axis transformations, filtering data, editing tooltips, reference lines, histograms, Python/R integration, clustering.

12. Követelmények, az osztályzat (aláírás) kialakításának módja
szorgalmi
időszakban
ellenőrző dolgozat, zárthelyi dolgozat, házi feladatok vizsga-
időszakban
szóbeli és írásbeli vizsga
13. Pótlási lehetőségek
TVSZ szerint
14. Konzultációs lehetőségek
oktatóval egyeztetve
15. Jegyzet, tankönyv, felhasználható irodalom
Tan, Pang-Ning, Michael Steinbach, and Vipin Kumar. Introduction to data mining. 2005.
James, Gareth, et al. An introduction to statistical learning. Vol. 112. New York: Springer, 2013.
Leskovec, Jure, Anand Rajaraman, and Jeffrey David Ullman. Mining of massive datasets. Cambridge University Press, 2014.
Sammut, Claude, and Geoffrey I. Webb, eds. Encyclopedia of machine learning and data mining. Springer, 2016.
16. A tantárgy elvégzéséhez átlagosan szükséges tanulmányi munka mennyisége órákban (a teljes szemeszterre számítva)
16.1 Kontakt óra
70
16.2 Félévközi felkészülés órákra
28
16.3 Felkészülés zárthelyire
12
16.4 Zárthelyik megírása
0
16.5 Házi feladat elkészítése
44
16.6 Kijelölt írásos tananyag elsajátítása (beszámoló)
12
16.7 Egyéb elfoglaltság
0
16.8 Vizsgafelkészülés
44
16.9 Összesen
210
17. Ellenőrző adat Kredit * 30
210
A tárgy tematikáját kidolgozta
18. Név beosztás Munkahely (tanszék, kutatóintézet, stb.)
Dr. Molontay Roland
egyetemi docens
Sztochasztika Tanszék
A tanszékvezető
19. Neve aláírása
Dr. Simon Károly