A tárgy célja a Beveztés az adattudományba 1 tárgyban elsajátított ismeretek kiterjesztése, különösképpen az algoritmusok skálázhatósága és párhuzamosíthatósága, illetve az ott nem érintett mély tanulási módszerek megismerése, nagy méretű adahalmazok kezelése.
Előadás: Skálázhatóság. Grid-computing. Cloud. Online gépi tanulás. Inkrementális gépi tanulás. Nagyméretű adathalmazok kezelése, Elosztott adatbázisok, Hadoop, MapReduce. MapRaduce algoritmusai, bonyolultságelmélete. Hasonlóság, távolság. Alkalmazások: Reklámozás a Weben, ajánlórendszerek. Deep learning, mély neurális hálók, modern architektúrák, NLP, LLM alapok. A Python és R mellett egyéb széles körben használt szoftver megismerése, alkalmazása. Valós esettanulmányok meghívott előadókkal.
------------------------------------------------
Objective of the course: The aim of this course is to extend the knowledge acquired in the Introduction to Data Science 1 course, with a particular focus on the scalability and parallelization of algorithms, the introduction of deep learning methods not covered previously, and the management of large-scale datasets.
Lectures: Scalability. Grid computing. Cloud computing. Online machine learning. Incremental machine learning. Handling large-scale datasets. Distributed databases. Hadoop. MapReduce. MapReduce algorithms and their computational complexity. Similarity and distance measures. Applications: web advertising and recommender systems. Deep learning, deep neural networks, modern architectures, NLP, and the fundamentals of large language models (LLMs). Introduction to and application of widely used software tools beyond Python and R. Real-world case studies with invited guest speakers.

