Rozsah: týždenne 2h prednášok, 1h výpočtové
cvičenie a 1h projektová práca. Predmet končí zápočtom a skúškou.
Určený pre: 2. ročník inžinierskeho štúdia – zimný semester, študijný
program Hospodárska informatika (povinný), 1. ročník inžinierskeho štúdia,
študijný program Inteligentné systémy (povinne voliteľný)
Prerekvizity: žiadne
Prednášajúci: prof. Ing. Ján Paralič, PhD.,
e-mail: Jan.Paralic at tuke.sk
doc.
Ing. Peter Bednár, PhD., e-mail: Peter.Bednar
at tuke.sk
Cvičiaci: Ing. Oliver Lohaj,
PhD., e-mail: Oliver.Lohaj at tuke.sk
Anotácia:
I. Vyhľadávanie informácií z množiny textových dokumentov. Klasické a alternatívne modely pre
vyhľadávanie informácií, boolovský model, vektorový
model, pravdepodobnostný model. Predspracovanie textových dokumentov.
Vyhodnocovanie systémov pre vyhľadávanie informácií. Vyhľadávanie na webe.
Architektúra crawler-indexer. Ekonomické aspekty
vyhľadávania, marketing založený na vyhľadávaní, spôsob fungovania AdWords. Vyhľadávanie s využitím štruktúry liniek.
Algoritmy PageRank a HITS.
II. Dolovanie znalostí z textov. Základné kroky, príklady aplikačných oblastí. Metódy analýzy prirodzeného
jazyka. Predspracovanie textov do vhodnej reprezentácie, jazykové úrovne a
metódy predspracovania textov. Syntaktická reprezentácia textov, morfologické
značkovanie, syntaktické parsovanie, závislostné stromy. Zjednoznačnenie
významu, WordNet, redukcia príznakového priestoru,
selekcia termov, Latentné Sémantické Indexovanie (LSI). Extrahovanie, analýza,
interpretovanie a vizualizácia tém. Analýza sentimentu. Klasifikácia emócií, SenticNet model. Extrahovanie informácií (entít, udalostí,
vzťahov a faktov). Pravidlá a slovníky, štatistické metódy, skryté Markovove modely, rekurentné
neurónové siete, hĺbkové učenie. Rozlíšenie koreferencií,
ontológie, extrahovanie relácií.
III. Manažment znalostí: Faktory ovplyvňujúce manažment znalostí (MZ). Konceptuálny pohľad na
manažment znalostí. Jednotlivé úrovne práce so znalosťami. Životný cyklus
znalostí (socializácia, externalizácia, kombinácia, internalizácia). Ďalšie uhly pohľadu na manažment znalostí.
Základná architektúra systému pre podporu manažmentu znalostí (SMZ) v
organizácii a príklady konkrétnych systémov SMZ. Univerzalistický vs. podmienený pohľad na MZ. Identifikácia vhodného typu
riešenia manažmentom znalostí. Vplyv manažmentu znalostí (MZ) na organizáciu a
hodnotenie MZ.
Prednášky Cvičenia Spôsob hodnotenia Literatúra
Téma |
1.
Vyhľadávanie informácií z
množiny textových dokumentov. Proces vyhľadávania
informácií (information retrieval – IR). Taxonómia modelov pre IR. Formálna definícia IR modelu. Klasické modely pre IR. |
2. Vektorový model pre
vyhľadávanie informácií z
množiny textových dokumentov - rôzne spôsoby
váhovania a výpočet miery relevancie dokumentu voči dopytu - ranking. Pravdepodobnostný model pre
vyhľadávanie informácií z
množiny textových dokumentov. |
3.
Vyhodnocovanie systémov
pre vyhľadávanie informácií. Rôzne
kritériá pre hodnotenie
IR systémov. Hodnotenie efektívnosti vyhľadávania (spokojnosť používateľa). Presnosť, návratnosť, F miera – t.j. hodnotenie výsledkov bez usporiadania (unranked retrieval set). Grafické znázornenie závislosti presnosti a návratnosti – t.j. hodnotenie usporiadaných výsledkov vyhľadávania (ranked
retrieval set). Sumarizačné mierky
efektívnosti vyhľadávania.
|
4.
Vyhľadávanie
na webe. Veľmi stručná história vyhľadávania na webe. Architektúra
crawler-indexer, základné požiadavky
na crawler, jeho základná architektúra. Typy používateľských dopytov, kategórie. Ekonomické aspekty vyhľadávania, marketing založený
na vyhľadávaní, spôsob fungovania AdWords. Vyhľadávanie s využitím štruktúry liniek. Algoritmy PageRank a HITS. |
5.
Dolovanie znalostí z textov - 1. časť. Základné kroky procesu objavovania znalostí v textoch. Príklady aplikačných oblastí. Automatické spracovanie prirodzeného jazyka. Problémy pri spracovaní prirodzeného jazyka. Metódy analýzy prirodzeného jazyka. |
6.
Dolovanie znalostí z textov - 2. časť. Identifikácia relevantných
textových dát. Formáty textových dát, kódovanie textu, harmonizácia dát, integrácia dát. Predspracovanie textov do vhodnej reprezentácie, jazykové úrovne a metódy predspracovania textov. Tokenizácia, extrahovanie
termov, stemming, lematizácia, odstránenie
stopslov, extrahovanie postupností slov a n-gramov. Syntaktická reprezentácia textov, morfologické značkovanie, syntaktické parsovanie, závislostné stromy. |
7.
Dolovanie znalostí z textov - 3. časť. Integrovanie a predspracovanie
textov do vhodnej reprezentácie. Zjednoznačnenie významu, WordNet, redukcia príznakového priestoru, selekcia termov, Latentné Sémantické Indexovanie (LSI). Použitie metód pre extrahovanie znalostí na predspracovaných dátach - modelovanie. Klasifikácia, lineárne modely, logistická regresia, SVM, semikontrolované
učenie, aktívne učenie. Zhlukovanie, k-means,
SOM, extrahovanie popisu zhlukov, vizualizácia zhlukov. |
8. Dolovanie znalostí z
textov - 4. časť. Extrahovanie
tém, LSI (latentné sémantické indexovanie), pravdepodobnostný model tém,
LDA (latentná dirichletova
alokácia), analýza tém v dátových prúdoch. Interpretovanie tém, vizualizácia tém. Analýza sentimentu, metódy analýzy sentimentu. Využitie semikontrolovaného a aktívneho učenia.
Klasifikácia emócií, SenticNet model. |
9.
Dolovanie znalostí z textov - 5. časť. Extrahovanie informácií: extrahovanie entít, udalostí, vzťahov a faktov. Pravidlá a slovníky, štatistické metódy, skryté Markovove modely, rekurentné neurónové siete, hĺbkové učenie. Rozlíšenie koreferencií, ontológie, extrahovanie relácií. Niekoľko príkladov extrahovania informácií. |
10. Dolovanie znalostí
z textov - 6. časť. Veľké jazykové modely: základné princípy a spôsoby ich využitia, architektúry, učenie modelov, meranie kvality výsledkov, prompt
engineering. |
11.
Manažment znalostí v praxi. Pozvaná prednáška |
12.
Jednotlivé uhly pohľadu na manažment
znalostí. Systémy pre podporu manažmentu znalostí (SMZ) v organizácii a príklady konkrétnych SMZ, vrátane systémov vyvinutých v rámci európskych projektov na našej katedre:
KnowWeb
a Webocrat.
|
13. Faktory
ovplyvňujúce manažment znalostí (MZ). Univerzalistický,
alebo podmienený pohľad na MZ. Vplyv charakteristík riešených úloh. Vplyv charakteristík používaných znalostí. Vplyv charakteristík organizácie. Vplyv charakteristiky vonkajšieho prostredia. Metodológia pre
výber vhodného typu riešenia manažmentom znalostí. |
Týždeň |
Náplň cvičenia |
Poznámky |
1. |
Oboznámenie sa s organizáciou cvičení, modelom práce na
cvičeniach a zadaniach, ako aj spôsobom ich hodnotenia. |
|
2. |
Boolovský model - vnútorná reprezentácia incidenčnou maticou term-dokument, invertovaný index, vyhodnotenie základných dopytov nad invertovaným
indexom. |
|
3. |
Vektorový model - rôzne spôsoby váhovania a výpočet miery relevancie dokumentu voči dopytu - ranking. |
|
4. |
Hodnotenie efektívnosti vyhľadávania: výpočet metrík presnosť, návratnosť, F miera (výsledky vyhľadávania bez usporiadania). Krivka presnosť-návratnosť a jej normovaná verzia (usporiadané výsledky vyhľadávania). Sumarizačné mierky MAP a R-presnosť. |
|
5. |
Algoritmus PageRank. |
|
6. |
Projektová práca, konzultácie |
|
7. |
1. písomka |
1. písomka (max. 10b) |
8. |
Projektová práca, konzultácie |
|
9. |
Algoritmus HITS. |
|
10. |
2. písomka |
2. písomka (max. 10b) |
11. |
Projektová práca, konzultácie |
|
12. |
Odovzdávanie zadaní (max. 20b) |
|
13. |
Projektová práca, konzultácie |
|
·
2. písomka: max. 10 bodov
-------------------------------------------
Spolu za cvičenia: max. 40 bodov
·
Úlohy z prednášok a záverečný test
na skúške: spolu max 60 bodov
---------------------------------------------------------------------------------
Spolu: max. 100 bodov