![]() Természettudományi Kar |
Tantárgy Adatlap |
Tantárgy kód | BMETE95MAQ0 |
Tantárgy azonosító adatok | |||||||||
1. | A tárgy címe | Adattudomány | |||||||
2. | A tárgy angol címe | Data Science |
3. | Heti óraszámok (ea + gy + lab) és a félévvégi követelmény típusa | 2 | + | 1 | + | 1 | f | Kredit | 4 |
4. | Ajánlott/kötelező előtanulmányi rend | ||||||||
vagy | Tantárgy kód 1 | Rövid cím 1 | Tantárgy kód 2 | Rövid cím 2 | Tantárgy kód 3 | Rövid cím 3 | |||
4.1 | |||||||||
4.2 | |||||||||
4.3 | |||||||||
5. | Kizáró tantárgyak | ||||||||
6. | A tantárgy felelős tanszéke | Sztochasztika Tanszék | |||||||
7. | A tantárgy felelős oktatója | Dr. Simon Károly | beosztása | egyetemi tanár |
Akkreditációs adatok | ||||
8. | Akkreditációra benyújtás időpontja | 2022.02.16. | Akkreditációs bizottság döntési időpontja | 2022.02.18. |
Tematika | |||||||||
9. | A tantárgy az alábbi témakörök ismeretére épít | ||||||||
differenciálszámítás, lineáris algebra, valószínűségszámítás |
|||||||||
10. | A tantárgy szerepe a képzés céljának megvalósításában (szak, kötelező, kötelezően választható, szabadon választható) | ||||||||
Aquincum Institute of Technology (AIT) válaszható tárgya a BME-vel való együttműködés keretében |
|||||||||
11. | A tárgy részletes tematikája | ||||||||
Syllabus
1. Introduction to Data Science: Concept, history and process (CRISP-DM) of Data Science, goal of data science and its applications. Attributes,
datasets, Big Data, Machine Learning tasks.
2. Data exploration, preparation and similarity measures: Data preparation, explanatory analysis, data visualization, summary statistics,
sampling, attribute aggregation, transformation, and discretization. Minkowski distance, Mahalanobis distance, Cosine similarity, SMC, Jaccard
index, Hamming distance, DTW.
3. kNN and Decision Tree: Method of nearest neighbors and its accelerations (K-d tree), Bayes classifier, Decision Tree, Hunt algorithm, split
purity, impurity metrics, validation.
4. Overfitting, validation: Generalization, training, test, and validation sets. Cross-validation, under and overfitting, Occam’s razor, confusion
matrix, performance indicators, ROC, AUC
5. Naive Bayes: Naive Bayes classifier, a posteriori and maximum likelihood estimation, estimation with normal distribution, Laplace and m
estimation
6. Linear regression: Parametric and nonparametric regression, kNN and Decision Tree for regression task, MSE, decomposition of MSE and
variance, Bias–Variance tradeoff, optimal solution of regression, linear regression, gradient descent, stochastic gradient descent, learning rate,
regularization, polynomial regression, interpreting linear regression models.
7. Logistic regression and SVM: Classification by regression, sigmoid function, logistic regression, linear separability, non-linear decision
boundary, logit model, maximal margin, support vectors and SVM
8. Neural networks: Biological motivation, activation function, perceptron and its relation to other algorithms, representing Boolean functions
with neural networks, deep-learning, forward propagation, backpropagation.
9. Ensemble learning: Ensemble methods, bagging, metamodels, boosting and AdaBoost, gradient boosting, Random Forest, semi-supervised
learning, classification of imbalanced data, SMOTE.
10. Cluster analysis: Concept, types, clustering algorithms, k-means algorithm, hierarchical clustering, distance of clusters, Simple-linkage and
Complete-linkage clustering, DBSCAN algorithm, core border and noise points, validation of clustering (distance matrix, SSE, silhouette)
11. Recomendation systems: content based recommender, collaborative filtering, user based and k nearest neighbour recommender, latent factor
recommender system, matrix factorization.
|
|||||||||
12. | Követelmények, az osztályzat (aláírás) kialakításának módja | ||||||||
szorgalmi időszakban |
zárthelyi dolgozatok (2db), házi feladatok | vizsga- időszakban |
|||||||
13. | Pótlási lehetőségek | ||||||||
TVSZ szerint |
|||||||||
14. | Konzultációs lehetőségek | ||||||||
oktatóval történő megegyezés szerint |
|||||||||
15. | Jegyzet, tankönyv, felhasználható irodalom | ||||||||
Pang-Ning Tan, Michael Steinbach, Vipin Kumar: Introduction to Data Mining, Addison-Wesley, 2006. |
|||||||||
Jure Leskovec, Anand Rajaraman, Jeff Ullman: Mining of Massive Datasets |
|||||||||
16. | A tantárgy elvégzéséhez átlagosan szükséges tanulmányi munka mennyisége órákban (a teljes szemeszterre számítva) | ||||||||
16.1 | Kontakt óra | 56 |
|||||||
16.2 | Félévközi felkészülés órákra | 14 |
|||||||
16.3 | Felkészülés zárthelyire | 20 |
|||||||
16.4 | Zárthelyik megírása | 0 |
|||||||
16.5 | Házi feladat elkészítése | 30 |
|||||||
16.6 | Kijelölt írásos tananyag elsajátítása (beszámoló) | 0 |
|||||||
16.7 | Egyéb elfoglaltság | 0 |
|||||||
16.8 | Vizsgafelkészülés | 0 |
|||||||
16.9 | Összesen | 120 |
|||||||
17. | Ellenőrző adat | Kredit * 30 | 120 |
A tárgy tematikáját kidolgozta | |||||||||
18. | Név | beosztás | Munkahely (tanszék, kutatóintézet, stb.) | ||||||
Dr. Molontay Roland |
tudományos munkatárs |
MTA-BME Sztochasztika Kutatócsoport |
|||||||
A tanszékvezető | |||||||||
19. | Neve | aláírása | |||||||
Dr. Simon Károly |