Objavovanie znalostí


Rozsah: týždenne 2h prednášok, 1h laboratórne cvičenie a 1h projektová práca. Predmet končí zápočtom a skúškou.

Určený pre: 1. ročník inžinierskeho štúdia – zimný semester, študijný program Hospodárska informatika (povinný), študijný program Inteligentné systémy (povinne voliteľný)

 
Prerekvizity: základné znalosti o databázach

Prednášajúci:
prof. Ing. Ján Paralič, PhD., e-mail: Jan.Paralic at tuke.sk

Cvičiaci:
Ing. Oliver Lohaj, PhD., e-mail: Oliver.Lohaj at tuke.sk

Anotácia: Základné pojmy z oblasti objavovania znalostí a dolovania v dátach. Proces objavovania znalostí, podrobná náplň jednotlivých fáz tohto procesu v zmysle metodiky CRISP-DM. Metódy dolovania v dátach, ich rozdelenie podľa rôznych kritérií. Prediktívne dolovanie v dátach. Metriky pre meranie podobnosti a vzdialenosti pre rôzne typy dát. Analýza zhlukov. Detekcia anomálií. Asociačné pravidlá.


Prednášky       Cvičenia       Spôsob hodnotenia       Ďalšie zdroje


Podklady k prednáškam sú priebežne zverejňované v MS Teams

Téma

1.  Proces objavovania znalostí (OZ) v databázach. Typické aplikačné oblasti OZ. Stručný popis jednotlivých krokov OZ. Základné typy dolovania v dátach (DM). Štandardizácia procesu OZ. Ukážka pôvodného softvéru vyvinutého na KKUI: KDD Package.

2. Pochopenie dát. Základné typy dát. Dáta bez závislostí (Multidimenzionálne dáta (kvantitatívne, kategorické, zmiešané, binárne); Textové dáta). Dáta so závislosťami (časové rady, diskrétne sekvencie, priestorové dáta, sieťové (grafové) dáta). Pochopenie dát (2. fáza CRISP-DM): Charakteristiky pre jednotlivé atribúty. Závislosť medzi jednotlivými atribútmi.

3. Príprava dát. I. Extrakcia príznakov a ich portabilita (transformácie jedného dátového typu na iný). II. Čistenie dát: Vysporiadanie sa s chýbajúcimi hodnotami. Ošetrenie chybných vstupov. Škálovanie a normalizácia. III. Redukcia dát: Vzorkovanie. Výber podskupiny príznakov. Redukcia dát rotáciou osí. Redukcia dát transformáciou typov.

4. Prediktívne dolovanie v dátach 1. Základné pojmy, dve fázy klasifikácie. Výber príznakov pre klasifikáciu. Rozhodovacie stromy, pravidlové klasifikátory. Pravdepodobnostná klasifikácia: Bayesovská klasifikácia a logistická regresia. Klasifikátory na princípe k-najbližších susedov.

5. Prediktívne dolovanie v dátach 2. Kvantifikácia výsledku klasifikácie. Náročné klasifikačné scenáre: Klasifikácia do viacerých tried. Klasifikácia zriedkavých tried. Škálovateľná klasifikácia. Predikcia (numerický cieľový atribút). Lineárna a polynomiálna regresia. Regresné stromy. Prediktory na princípe k-najbližších susedov. Rozšírená klasifikácia: Semi-kontrolované učenie. Aktívne učenie. Zložená klasifikácia (učenie súborom metód).

6. Podobnosť a vzdialenosť. Multidimenzionálne dáta: kvantitatívne dáta, Lp normy a ich vlastnosti. Na porovnávaní založená podobnosť (match-based similarity). Kategorické dáta, zmiešané kvantitatívne a kategorické dáta. Podobnosť textových dát (text similarity measures). Podobnosť časových dát (temporal similarity measures). Mierky podobnosti pre diskrétne sekvencie. Mierky podobnosti grafov (graph similarity measures).

7. Analýza zhlukov. Úvod, príklady aplikácií. Výber príznakov pre zhlukovanie: filtrovacie, obálkové a hybridné prístupy. Metódy zhlukovania založené na výbere reprezentantov zhlukov (k-stredové metódy): k-means, Mahalanobisov k-means, k-medians, k-medoids. Metódy hierarchického zhlukovania: aglomeratívne a divizívne metódy. Ďalšie metódy zhlukovania: na mriežke založené zhlukovanie (grid-based methods), na hustote založené zhlukovanie (density-based methods), na grafoch založené zhlukovanie (graph-based methods). Validácia zhlukov: interné a externé kritériá validity zhlukov.

8. Detekcia anomálií. Úvod, príklady aplikácií. Analýza extrémnych hodnôt (extreme value analysis): Jednorozmerná (univariate) a viacrozmerná (multivariate) analýza extrémnych hodnôt. Metódy založené na hĺbke (depth-based methods). Zhlukovanie pre detekciu anomálií. Metódy založené na vzdialenosti (distance-based outlier methods). Metódy korigujúce lokálnu vzdialenosť: LOF (Local Outlier Factor) a Instance-specific Mahalanobis distance. Metódy založené na hustote (density-based methods). Validita anomálií: ROC (Receiver Operating Characteristics).

9. Asociačné pravidlá. Základné pojmy: analýza nákupného košíka, položky, položkové množiny, frekventované položkové množiny. Asociačné pravidlá a ich zaujímavosť: podpora, spoľahlivosť (nesymetrická mierka), lift (symetrická mierka). Princíp monotónnosti podpory (downward closure property). Algoritmus Apriori na hľadanie frekventovaných množín položiek. Generovanie asociačných pravidiel z frekventovaných množín položiek. Algoritmy založené na enumeračnom strome, algoritmy využívajúce vertikálnu reprezentáciu. Ďalšie mierky zaujímavosti asociačných pravidiel: bitovo symetrické mierky spoľahlivosti. Ďalšie rozšírenia: dolovanie negatívnych vzorov. Vzorkovanie, hierarchické asociačné pravidlá, kvantitatívne asociačné pravidlá.

10. Objavovanie znalostí vo výskume/v praxi. Pozvaná prednáška

11. Zhrnutie a opakovanie základného učiva


Cvičenia – podklady a aktuálne informácie sú priebežne zverejňované v MS Teams

Približný harmonogram cvičení

Týždeň

Náplň cvičenia

Poznámky

1.

-        Oboznámenie sa s organizáciou cvičení, modelom práce na zadaniach a spôsobom ich hodnotenia.

-        Prvá fáza CRISP-DM – pochopenie problému

 

2.

Pochopenie dát, načítanie dát v Altair AI Studio

 

3.

Príprava dát 1

 

4.

Príprava dát 2

 

5.

Projektová práca, konzultácie

1. písomná previerka vedomostí z prednášok (max. 5b)

6.

Modelovanie

7.

Vyhodnotenie modelov

8.

Projektová práca, konzultácie

9.

Preskúšanie práce s nástrojom, konzultácie

Preskúšanie práce s nástrojom (max. 5b)

10.

Popisné dolovanie

 

11.

Projektová práca, konzultácie

2. písomná previerka vedomostí z prednášok (max. 5b)

12.

Odovzdávanie zadaní (max. 25b)

 

13.

Projektová práca, konzultácie

 

 


Spôsob hodnotenia

·        Zadanie: max. 25 bodov

        ---------------------------------------------------------
          Spolu za cvičenia - k zápočtu: max. 40 bodov

 

·        Práca počas semestra na prednáškach a skúška: spolu max 60 bodov

        --------------------------------------------------------------------------------------
          Spolu: max. 100 bodov


Ďalšie zdroje:

  1. J. Paralič: Objavovanie znalostí v databázach. Elfa, Košice 2003, ISBN 80-89066-60-7, 80 s.
  2. Charu C. Aggarwal: Data Mining: The Textbook. Springer, 2015
  3. Altair AI Studio: https://altair.com/altair-ai-studio 
  4. Metodológia CRISP-DM: schéma a podrobný popis
  5. G. James, D. Witten, T. Hastie and R. Tibshirani: An Introduction to Statistical Learning with Applications in R. Springer, 2015.
  6. KDnuggets. Napr. aj Analytics Industry Overview - Gregory Piatetsky - pozvaná prednáška na SuperData Summit 2011 v San Diegu
  7. Elektronické databázy zahraničné (autorizovaný prístup do databáz sprostredkovaný univerzitnou knižnicou TU. Prístup do väčšiny externých elektronických databáz (bibliografické databázy, úplné texty článkov z časopisov a zborníkov, online knihy, ...) je viazaný na IP adresu proxy servera tuke.sk (iba v rámci TU) a je potrebné správne nastavenie prehliadača.
  8. Štatistické tabuľky