A tárgy célja, hogy a nem numerikus, szöveges adatok (web, digitális könyvtárak, blogok) vagy a strukturálatlan (szabad szöve ges) mezők nélkül nem értelmezhető strukturált, numerikus, képi adatok feldolgozásához szükséges nyelvi elemzési módszereket megismertesse a hallgatókkal.
Tematika: Adatgyűjtés. Végesállapotú technológiák. Környezetfüggetlen nyelvtanok. A szavak megszámolása. Zipf törvényei, hatványtörvények. Indexépítés. A keresőmotorok alapjai. Amit a nyelvészetből tudni kell. A szavak osztályozása. Szótárépítés. Kollokációk, idió mák, többértelműség. Nyelvmodellezés. Súlyozott automaták, Markov modellek, rejtett Markov, n-gram. Helyesírás-ellenőrzés, nyelvtan-ellenőrzés. Beszédfelismerés, írásfelismerés, beszédkeltés. Névelemfelismerés. Funkcionális mondatelemzés. Mondat feletti egységek. Érzület -elemzés. Jelentésreprezentáció. Szójelentés, mondatjelentés, diskurzus-jelentés. Logikai modellek, vektormodellek. Gépi fordítás.