Rozsah: týždenne 2h prednášok, 1h laboratórne
cvičenie a 1h projektová práca. Predmet končí zápočtom a skúškou.
Určený pre: 1. ročník inžinierskeho štúdia – zimný
semester, študijný program Hospodárska informatika (povinný), študijný program
Inteligentné systémy (povinne voliteľný)
Prerekvizity: základné znalosti o databázach
Prednášajúci: prof. Ing. Ján
Paralič, PhD., e-mail: Jan.Paralic at tuke.sk
Cvičiaci: Ing.
Oliver Lohaj, PhD., e-mail: Oliver.Lohaj at tuke.sk
Anotácia: Základné pojmy z oblasti
objavovania znalostí a dolovania v dátach. Proces objavovania znalostí,
podrobná náplň jednotlivých fáz tohto procesu v zmysle metodiky CRISP-DM.
Metódy dolovania v dátach, ich rozdelenie podľa rôznych kritérií. Prediktívne
dolovanie v dátach. Metriky pre meranie podobnosti a vzdialenosti pre
rôzne typy dát. Analýza zhlukov. Detekcia anomálií. Asociačné pravidlá.
Prednášky
Cvičenia Spôsob hodnotenia
Ďalšie zdroje
Téma |
1.
Proces objavovania znalostí (OZ) v databázach. Typické aplikačné oblasti
OZ. Stručný popis jednotlivých krokov OZ. Základné typy dolovania v dátach
(DM). Štandardizácia procesu OZ. Ukážka pôvodného softvéru vyvinutého na
KKUI: KDD Package. |
2.
Pochopenie dát.
Základné typy dát. Dáta bez závislostí (Multidimenzionálne dáta (kvantitatívne,
kategorické, zmiešané, binárne); Textové dáta). Dáta so závislosťami (časové
rady, diskrétne sekvencie, priestorové dáta, sieťové (grafové) dáta).
Pochopenie dát (2. fáza CRISP-DM): Charakteristiky pre jednotlivé atribúty.
Závislosť medzi jednotlivými atribútmi. |
3.
Príprava dát. I.
Extrakcia príznakov a ich portabilita (transformácie jedného dátového typu na
iný). II. Čistenie dát: Vysporiadanie sa s chýbajúcimi hodnotami. Ošetrenie
chybných vstupov. Škálovanie a normalizácia. III. Redukcia dát: Vzorkovanie.
Výber podskupiny príznakov. Redukcia dát rotáciou osí. Redukcia dát
transformáciou typov. |
4.
Prediktívne dolovanie v dátach 1. Základné pojmy, dve fázy klasifikácie. Výber príznakov pre
klasifikáciu. Rozhodovacie stromy, pravidlové klasifikátory.
Pravdepodobnostná klasifikácia: Bayesovská klasifikácia a logistická
regresia. Klasifikátory na princípe k-najbližších susedov. |
5.
Prediktívne dolovanie v dátach 2. Kvantifikácia výsledku klasifikácie. Náročné klasifikačné
scenáre: Klasifikácia do viacerých tried. Klasifikácia zriedkavých tried.
Škálovateľná klasifikácia. Predikcia (numerický cieľový atribút). Lineárna a
polynomiálna regresia. Regresné stromy. Prediktory na princípe k-najbližších
susedov. Rozšírená klasifikácia: Semi-kontrolované učenie. Aktívne učenie.
Zložená klasifikácia (učenie súborom metód). |
6. Podobnosť a vzdialenosť. Multidimenzionálne dáta: kvantitatívne dáta, Lp normy a
ich vlastnosti. Na porovnávaní založená podobnosť (match-based similarity).
Kategorické dáta, zmiešané kvantitatívne a kategorické dáta. Podobnosť
textových dát (text similarity measures). Podobnosť časových dát (temporal
similarity measures). Mierky podobnosti pre diskrétne sekvencie. Mierky
podobnosti grafov (graph similarity measures). |
7.
Analýza zhlukov. Úvod,
príklady aplikácií. Výber príznakov pre zhlukovanie: filtrovacie, obálkové a
hybridné prístupy. Metódy zhlukovania založené na výbere reprezentantov
zhlukov (k-stredové metódy): k-means, Mahalanobisov k-means, k-medians,
k-medoids. Metódy hierarchického zhlukovania: aglomeratívne a divizívne
metódy. Ďalšie metódy zhlukovania: na mriežke založené zhlukovanie
(grid-based methods), na hustote založené zhlukovanie (density-based
methods), na grafoch založené zhlukovanie (graph-based methods). Validácia
zhlukov: interné a externé kritériá validity zhlukov. |
8.
Detekcia anomálií. Úvod,
príklady aplikácií. Analýza extrémnych hodnôt (extreme value analysis):
Jednorozmerná (univariate) a viacrozmerná (multivariate) analýza extrémnych
hodnôt. Metódy založené na hĺbke (depth-based methods). Zhlukovanie pre
detekciu anomálií. Metódy založené na vzdialenosti (distance-based outlier
methods). Metódy korigujúce lokálnu vzdialenosť: LOF (Local Outlier Factor) a
Instance-specific Mahalanobis distance. Metódy založené na hustote
(density-based methods). Validita anomálií: ROC (Receiver Operating
Characteristics). |
9.
Asociačné pravidlá. Základné
pojmy: analýza nákupného košíka, položky, položkové množiny, frekventované
položkové množiny. Asociačné pravidlá a ich zaujímavosť: podpora,
spoľahlivosť (nesymetrická mierka), lift (symetrická mierka). Princíp
monotónnosti podpory (downward closure property). Algoritmus Apriori na
hľadanie frekventovaných množín položiek. Generovanie asociačných pravidiel z
frekventovaných množín položiek. Algoritmy založené na enumeračnom strome,
algoritmy využívajúce vertikálnu reprezentáciu. Ďalšie mierky zaujímavosti
asociačných pravidiel: bitovo symetrické mierky spoľahlivosti. Ďalšie
rozšírenia: dolovanie negatívnych vzorov. Vzorkovanie, hierarchické asociačné
pravidlá, kvantitatívne asociačné pravidlá. |
10.
Objavovanie znalostí vo výskume/v praxi. Pozvaná prednáška |
11.
Zhrnutie a opakovanie základného učiva |
Náplň cvičenia |
Poznámky |
|
1. |
-
Oboznámenie sa s organizáciou cvičení, modelom práce na
zadaniach a spôsobom ich hodnotenia. -
Prvá fáza CRISP-DM – pochopenie problému |
|
2. |
Pochopenie dát, načítanie dát v Altair AI Studio |
|
3. |
Príprava dát 1 |
|
4. |
Príprava dát 2 |
|
5. |
Projektová
práca, konzultácie |
1. písomná previerka vedomostí z prednášok
(max. 5b) |
6. |
Modelovanie |
|
7. |
Vyhodnotenie modelov |
|
8. |
Projektová
práca, konzultácie |
|
9. |
Preskúšanie
práce s nástrojom, konzultácie |
Preskúšanie práce s nástrojom (max. 5b) |
10. |
Popisné dolovanie |
|
11. |
Projektová
práca, konzultácie |
2. písomná previerka vedomostí z prednášok
(max. 5b) |
12. |
Odovzdávanie zadaní (max. 25b) |
|
13. |
Projektová
práca, konzultácie |
|
·
Zadanie: max. 25 bodov
---------------------------------------------------------
Spolu za cvičenia - k zápočtu:
max. 40 bodov
·
Práca počas semestra na prednáškach a
skúška: spolu max 60 bodov
--------------------------------------------------------------------------------------
Spolu: max. 100 bodov