Rozsah: týždenne 2h prednášok, 1h výpočtové
cvičenie a 1h projektová práca. Predmet končí zápočtom a skúškou.
Určený pre: 2. ročník inžinierskeho štúdia – zimný semester, študijný
program Hospodárska informatika (povinný), 1. ročník inžinierskeho štúdia,
študijný program Inteligentné systémy (povinne voliteľný)
Prerekvizity: žiadne
Prednášajúci: prof. Ing. Ján Paralič, PhD.,
e-mail: Jan.Paralic at tuke.sk
doc. Ing. Peter Bednár, PhD., e-mail: Peter.Bednar
at tuke.sk
Cvičiaci: Ing. Samuel Fodor,
e-mail: Samuel.Fodor at tuke.sk
Anotácia:
I. Vyhľadávanie informácií z množiny textových dokumentov. Klasické a alternatívne modely pre
vyhľadávanie informácií, boolovský model, vektorový
model, pravdepodobnostný model. Predspracovanie textových dokumentov.
Vyhodnocovanie systémov pre vyhľadávanie informácií. Vyhľadávanie na webe.
Architektúra crawler-indexer. Ekonomické aspekty
vyhľadávania, marketing založený na vyhľadávaní, spôsob fungovania AdWords. Vyhľadávanie s využitím štruktúry liniek.
Algoritmy PageRank a HITS.
II. Dolovanie znalostí z textov. Základné kroky, príklady aplikačných oblastí. Metódy analýzy prirodzeného
jazyka. Predspracovanie textov do vhodnej reprezentácie, jazykové úrovne a
metódy predspracovania textov. Syntaktická reprezentácia textov, morfologické
značkovanie, syntaktické parsovanie, závislostné stromy. Zjednoznačnenie
významu, WordNet, redukcia príznakového priestoru,
selekcia termov, Latentné Sémantické Indexovanie (LSI). Extrahovanie, analýza,
interpretovanie a vizualizácia tém. Analýza sentimentu. Klasifikácia emócií, SenticNet model. Extrahovanie informácií (entít, udalostí,
vzťahov a faktov). Pravidlá a slovníky, štatistické metódy, skryté Markovove modely, rekurentné
neurónové siete, hĺbkové učenie. Rozlíšenie koreferencií,
ontológie, extrahovanie relácií.
III. Manažment znalostí: Faktory ovplyvňujúce manažment znalostí (MZ). Konceptuálny pohľad na
manažment znalostí. Jednotlivé úrovne práce so znalosťami. Životný cyklus
znalostí (socializácia, externalizácia, kombinácia, internalizácia). Ďalšie uhly pohľadu na manažment znalostí.
Základná architektúra systému pre podporu manažmentu znalostí (SMZ) v
organizácii a príklady konkrétnych systémov SMZ. Univerzalistický vs. podmienený pohľad na MZ. Identifikácia vhodného typu
riešenia manažmentom znalostí. Vplyv manažmentu znalostí (MZ) na organizáciu a
hodnotenie MZ.
Prednášky Cvičenia Spôsob hodnotenia Literatúra
|
Téma |
|
1.
Vyhľadávanie informácií z
množiny textových dokumentov. Proces vyhľadávania
informácií (information retrieval – IR). Taxonómia modelov pre IR. Formálna definícia IR modelu. Klasické modely pre IR. |
|
2. Vektorový model pre
vyhľadávanie informácií z
množiny textových dokumentov - rôzne spôsoby
váhovania a výpočet miery relevancie dokumentu voči dopytu - ranking. Pravdepodobnostný model pre
vyhľadávanie informácií z
množiny textových dokumentov. |
|
3.
Vyhodnocovanie systémov
pre vyhľadávanie informácií. Rôzne
kritériá pre hodnotenie
IR systémov. Hodnotenie efektívnosti vyhľadávania (spokojnosť používateľa). Presnosť, návratnosť, F miera – t.j. hodnotenie výsledkov bez usporiadania (unranked retrieval set). Grafické znázornenie závislosti presnosti a návratnosti – t.j. hodnotenie usporiadaných výsledkov vyhľadávania (ranked
retrieval set). Sumarizačné mierky
efektívnosti vyhľadávania.
|
|
4.
Vyhľadávanie
na webe. Veľmi stručná história vyhľadávania na webe. Architektúra
crawler-indexer, základné požiadavky
na crawler, jeho základná architektúra. Typy používateľských dopytov, kategórie. Ekonomické aspekty vyhľadávania, marketing založený
na vyhľadávaní, spôsob fungovania AdWords. Vyhľadávanie s využitím štruktúry liniek. Algoritmy PageRank a HITS. |
|
5.
Dolovanie znalostí z textov - 1. časť. Proces indexovania textu, tokenizácia, stemming, lematizácia,
normovanie termov. Rozšírený
intertovaný index. Latentné
sémantické indexovanie. Úvod do problematiky spracovania prirodzených jazykov, problémy nejednoznačnosti a mnohotvárnosti. |
|
6.
Dolovanie znalostí z textov - 2. časť. Úvod do počítačovej lingvistiky. Morfologická a syntaktická analýza. Sémantická reprezentácia a znalostné grafy. Extrahovanie entít, relácií a rozlíšenie koreferencií. Základné princípy metód analýzy dát. Distribuovaná reprezentácia slov: Word2Vec,
Glove a ELMo model. |
|
7.
Dolovanie znalostí z textov - 3. časť. Veľké jazykové
modely. Základné princípy a spôsoby ich využitia. Architektúry založené na Transformer sieťach. Učenie jazykových modelov. Prompt
engineering. |
|
8. Dolovanie znalostí z
textov - 4. časť. |
|
9.
Dolovanie znalostí z textov - 5. časť. |
|
10. Dolovanie znalostí
z textov - 6. časť. |
|
11.
Manažment znalostí v praxi. Pozvaná prednáška |
|
12.
Jednotlivé uhly pohľadu na manažment
znalostí. Systémy pre podporu manažmentu znalostí (SMZ) v organizácii a príklady konkrétnych SMZ, vrátane systémov vyvinutých v rámci európskych projektov na našej katedre:
KnowWeb
a Webocrat.
|
|
13. Faktory
ovplyvňujúce manažment znalostí (MZ). Univerzalistický,
alebo podmienený pohľad na MZ. Vplyv charakteristík riešených úloh. Vplyv charakteristík používaných znalostí. Vplyv charakteristík organizácie. Vplyv charakteristiky vonkajšieho prostredia. Metodológia pre
výber vhodného typu riešenia manažmentom znalostí. |
|
Týždeň |
Náplň cvičenia |
Poznámky |
|
1. |
Oboznámenie sa s organizáciou cvičení, modelom práce na
cvičeniach a zadaniach, ako aj spôsobom ich hodnotenia. |
|
|
2. |
Boolovský model - vnútorná reprezentácia incidenčnou maticou term-dokument, invertovaný index, vyhodnotenie základných dopytov nad invertovaným
indexom. Vektorový model - rôzne spôsoby váhovania a výpočet miery relevancie dokumentu voči dopytu - ranking. |
|
|
3. |
Hodnotenie efektívnosti vyhľadávania: výpočet metrík presnosť, návratnosť, F miera (výsledky vyhľadávania bez usporiadania). Krivka presnosť-návratnosť a jej normovaná verzia (usporiadané výsledky vyhľadávania). Sumarizačné mierky MAP a R-presnosť. |
|
|
4. |
1. písomka |
1. písomka (max. 10b) |
|
5. |
Projektová práca, konzultácie |
|
|
6. |
Projektová práca, konzultácie |
|
|
7. |
Algoritmus PageRank. |
|
|
8. |
Algoritmus HITS. |
|
|
9. |
2. písomka |
2. písomka (max. 10b) |
|
10. |
Projektová práca, konzultácie |
|
|
11. |
Projektová práca, konzultácie |
|
|
12. |
Odovzdávanie zadaní (max. 20b) |
Skupinové zadanie (max 20b) |
|
13. |
Predtermín |
|
·
2. písomka: max. 10 bodov
-------------------------------------------
Spolu za cvičenia: max. 40 bodov
·
Skúška: spolu max 60 bodov
-------------------------------------------
Spolu: max. 100 bodov