BMETE95MAQ0

Nyomtatóbarát változatNyomtatóbarát változat
Tantárgy azonosító adatok
A tárgy címe: 
Adattudomány
A tárgy angol címe: 
Data Science
A tárgy rövid címe: 
Adattudomány
2
1
1
f
Kredit: 
4
A tantárgy felelős tanszéke: 
Sztochasztika Tanszék
A tantárgy felelős oktatója: 
Dr. Simon Károly
A tantárgy felelős oktatójának beosztása: 
egyetemi tanár
Akkreditációs adatok
Akkreditációra benyújtás időpontja: 
2022.02.16.
Akkreditációs bizottság döntési időpontja: 
2022.02.18.
Tematika
A tantárgy az alábbi témakörök ismeretére épít: 
differenciálszámítás, lineáris algebra, valószínűségszámítás
A tantárgy szerepe a képzés céljának megvalósításában: 
Aquincum Institute of Technology (AIT) válaszható tárgya a BME-vel való együttműködés keretében
A tantárgy részletes tematikája magyarul és angolul: 
Syllabus
1. Introduction to Data Science: Concept, history and process (CRISP-DM) of Data Science, goal of data science and its applications. Attributes,
datasets, Big Data, Machine Learning tasks.
2. Data exploration, preparation and similarity measures: Data preparation, explanatory analysis, data visualization, summary statistics,
sampling, attribute aggregation, transformation, and discretization. Minkowski distance, Mahalanobis distance, Cosine similarity, SMC, Jaccard
index, Hamming distance, DTW.
3. kNN and Decision Tree: Method of nearest neighbors and its accelerations (K-d tree), Bayes classifier, Decision Tree, Hunt algorithm, split
purity, impurity metrics, validation.
4. Overfitting, validation: Generalization, training, test, and validation sets. Cross-validation, under and overfitting, Occam’s razor, confusion
matrix, performance indicators, ROC, AUC
5. Naive Bayes: Naive Bayes classifier, a posteriori and maximum likelihood estimation, estimation with normal distribution, Laplace and m
estimation
6. Linear regression: Parametric and nonparametric regression, kNN and Decision Tree for regression task, MSE, decomposition of MSE and
variance, Bias–Variance tradeoff, optimal solution of regression, linear regression, gradient descent, stochastic gradient descent, learning rate,
regularization, polynomial regression, interpreting linear regression models.
7. Logistic regression and SVM: Classification by regression, sigmoid function, logistic regression, linear separability, non-linear decision
boundary, logit model, maximal margin, support vectors and SVM
8. Neural networks: Biological motivation, activation function, perceptron and its relation to other algorithms, representing Boolean functions
with neural networks, deep-learning, forward propagation, backpropagation.
9. Ensemble learning: Ensemble methods, bagging, metamodels, boosting and AdaBoost, gradient boosting, Random Forest, semi-supervised
learning, classification of imbalanced data, SMOTE.
10. Cluster analysis: Concept, types, clustering algorithms, k-means algorithm, hierarchical clustering, distance of clusters, Simple-linkage and
Complete-linkage clustering, DBSCAN algorithm, core border and noise points, validation of clustering (distance matrix, SSE, silhouette)
11. Recomendation systems: content based recommender, collaborative filtering, user based and k nearest neighbour recommender, latent factor
recommender system, matrix factorization.
Követelmények szorgalmi időszakban: 
zárthelyi dolgozatok (2db), házi feladatok
Pótlási lehetőségek: 
TVSZ szerint
Konzultációs lehetőségek: 
oktatóval történő megegyezés szerint
Jegyzet, tankönyv, felhasználható irodalom: 
Pang-Ning Tan, Michael Steinbach, Vipin Kumar: Introduction to Data Mining, Addison-Wesley, 2006.
Jure Leskovec, Anand Rajaraman, Jeff Ullman: Mining of Massive Datasets
A tárgy elvégzéséhez átlagosan szükséges tanulmányi munka mennyisége órákban (a teljes szemeszterre számítva)
Kontakt óra: 
56
Félévközi felkészülés órákra: 
14
Felkészülés zárthelyire: 
20
Zárthelyik megírása: 
0
Házi feladat elkészítése: 
30
Kijelölt írásos tananyag elsajátítása (beszámoló): 
0
Egyéb elfoglaltság: 
0
Vizsgafelkészülés: 
0
Összesen: 
120
Ellenőrző adat: 
120
A tárgy tematikáját kidolgozta
Név: 
Dr. Molontay Roland
Beosztás: 
tudományos munkatárs
Munkahely (tanszék, kutatóintézet, stb.): 
MTA-BME Sztochasztika Kutatócsoport
A tanszékvezető neve: 
Dr. Simon Károly