Rozsah: týždenne 2h prednášok, 1h laboratórne
cvičenie a 1h projektová práca. Predmet končí zápočtom a skúškou.
Určený pre: 1. ročník inžinierskeho štúdia – zimný
semester, študijný program Hospodárska informatika (povinný), študijný program
Inteligentné systémy (povinne voliteľný)
Prerekvizity: základné znalosti o
databázach
Prednášajúci: prof. Ing. Ján
Paralič, PhD., e-mail: Jan.Paralic at
tuke.sk
Cvičiaci: Ing.
Oliver Lohaj, e-mail: Oliver.Lohaj
at tuke.sk
Anotácia: Základné pojmy z oblasti
objavovania znalostí a dolovania v dátach. Proces objavovania znalostí,
podrobná náplň jednotlivých fáz tohto procesu v zmysle metodiky CRISP-DM.
Metódy dolovania v dátach, ich rozdelenie podľa rôznych kritérií. Prediktívne
dolovanie v dátach. Metriky pre meranie podobnosti a vzdialenosti pre
rôzne typy dát. Analýza zhlukov. Detekcia anomálií. Asociačné pravidlá.
Prednášky
Cvičenia Spôsob hodnotenia
Ďalšie zdroje
Téma |
1.
Proces objavovania znalostí (OZ) v databázach. Typické aplikačné
oblasti OZ. Stručný popis jednotlivých krokov OZ. Základné typy dolovania v dátach (DM). Štandardizácia procesu OZ. Ukážka pôvodného softvéru vyvinutého na KKUI: KDD
Package. |
2.
Pochopenie dát. Základné
typy dát. Dáta bez závislostí (Multidimenzionálne dáta (kvantitatívne, kategorické, zmiešané, binárne); Textové dáta). Dáta so závislosťami (časové rady, diskrétne sekvencie, priestorové dáta, sieťové (grafové) dáta). Pochopenie dát (2. fáza CRISP-DM): Charakteristiky pre jednotlivé atribúty. Závislosť medzi jednotlivými atribútmi. |
3.
Príprava dát. I. Extrakcia
príznakov a ich portabilita (transformácie jedného dátového typu na iný).
II. Čistenie dát: Vysporiadanie sa s chýbajúcimi hodnotami. Ošetrenie chybných vstupov. Škálovanie a normalizácia. III. Redukcia dát: Vzorkovanie. Výber podskupiny príznakov. Redukcia dát rotáciou osí. Redukcia dát transformáciou typov. |
4.
Prediktívne dolovanie v dátach 1. Základné pojmy,
dve fázy klasifikácie. Výber príznakov pre klasifikáciu. Rozhodovacie stromy, pravidlové
klasifikátory. Pravdepodobnostná
klasifikácia: Bayesovská klasifikácia a logistická regresia. Klasifikátory na princípe k-najbližších susedov. |
5.
Prediktívne dolovanie v dátach 2. Kvantifikácia výsledku
klasifikácie. Náročné klasifikačné scenáre: Klasifikácia do viacerých
tried. Klasifikácia zriedkavých
tried. Škálovateľná klasifikácia.
Predikcia (numerický cieľový atribút). Lineárna a polynomiálna regresia. Regresné stromy. Prediktory na princípe k-najbližších susedov. Rozšírená klasifikácia: Semi-kontrolované učenie. Aktívne učenie. Zložená klasifikácia (učenie súborom metód). |
6. Podobnosť a vzdialenosť. Multidimenzionálne dáta:
kvantitatívne dáta, Lp normy a
ich vlastnosti. Na porovnávaní
založená podobnosť
(match-based similarity). Kategorické dáta, zmiešané kvantitatívne a kategorické dáta. Podobnosť textových dát (text similarity
measures). Podobnosť časových
dát (temporal similarity measures). Mierky podobnosti pre diskrétne sekvencie. Mierky podobnosti grafov (graph similarity measures). |
7.
Analýza zhlukov. Úvod, príklady
aplikácií. Výber príznakov pre zhlukovanie: filtrovacie, obálkové a hybridné prístupy. Metódy zhlukovania založené na výbere
reprezentantov zhlukov
(k-stredové metódy):
k-means, Mahalanobisov k-means, k-medians,
k-medoids. Metódy hierarchického
zhlukovania: aglomeratívne
a divizívne metódy. Ďalšie metódy zhlukovania: na mriežke založené zhlukovanie (grid-based methods), na
hustote založené zhlukovanie (density-based methods), na
grafoch založené zhlukovanie (graph-based methods). Validácia zhlukov: interné a externé
kritériá validity zhlukov. |
8.
Detekcia anomálií. Úvod, príklady
aplikácií. Analýza extrémnych hodnôt (extreme
value analysis): Jednorozmerná (univariate) a viacrozmerná (multivariate) analýza
extrémnych hodnôt. Metódy založené na hĺbke (depth-based methods).
Zhlukovanie pre detekciu anomálií. Metódy založené na vzdialenosti
(distance-based outlier methods). Metódy korigujúce lokálnu vzdialenosť: LOF (Local Outlier Factor) a Instance-specific Mahalanobis
distance. Metódy založené
na hustote (density-based
methods). Validita anomálií:
ROC (Receiver Operating Characteristics). |
9.
Asociačné pravidlá. Základné pojmy:
analýza nákupného košíka, položky, položkové množiny, frekventované položkové množiny. Asociačné pravidlá a ich zaujímavosť: podpora, spoľahlivosť (nesymetrická mierka), lift (symetrická mierka). Princíp monotónnosti podpory (downward
closure property). Algoritmus Apriori
na hľadanie frekventovaných množín položiek. Generovanie asociačných pravidiel z frekventovaných množín položiek. Algoritmy založené na enumeračnom
strome, algoritmy využívajúce vertikálnu reprezentáciu. Ďalšie mierky zaujímavosti asociačných pravidiel: bitovo symetrické mierky spoľahlivosti. Ďalšie rozšírenia: dolovanie negatívnych vzorov. Vzorkovanie, hierarchické asociačné pravidlá, kvantitatívne asociačné pravidlá. |
10.
Objavovanie znalostí vo výskume/v praxi. Pozvaná prednáška |
11.
Zhrnutie a opakovanie
základného učiva |
Náplň cvičenia |
Poznámky |
|
1. |
-
Oboznámenie sa s organizáciou cvičení, modelom práce na
zadaniach a spôsobom ich hodnotenia. -
Prvá fáza CRISP-DM – pochopenie problému |
|
2. |
Pochopenie dát, načítanie dát v Rapid Mineri |
|
3. |
Príprava dát 1 |
|
4. |
Príprava dát 2 |
|
5. |
Projektová práca, konzultácie |
1. písomná previerka vedomostí z prednášok (max. 5b) |
6. |
Dekanské voľno |
|
7. |
Modelovanie |
|
8. |
Vyhodnotenie modelov |
|
9. |
Preskúšanie práce s nástrojom, konzultácie |
Preskúšanie práce s nástrojom (max. 5b) |
10. |
Popisné dolovanie |
|
11. |
Projektová práca, konzultácie |
2. písomná previerka vedomostí z prednášok (max. 5b) |
12. |
Odovzdávanie zadaní (max. 25b) |
|
13. |
Projektová práca, konzultácie |
|
·
Zadanie: max. 25 bodov
---------------------------------------------------------
Spolu za cvičenia - k zápočtu:
max. 40 bodov
·
Práca počas semestra na prednáškach a
skúška: spolu max 60 bodov
--------------------------------------------------------------------------------------
Spolu: max. 100 bodov