Manažment znalostí


Rozsah: týždenne 2h prednášok, 1h výpočtové cvičenie a 1h projektová práca. Predmet končí zápočtom a skúškou.


Určený pre: 2. ročník inžinierskeho štúdia – zimný semester, študijný program Hospodárska informatika (povinný), 1. ročník inžinierskeho štúdia, študijný program Inteligentné systémy (povinne voliteľný)

Prerekvizity: žiadne

Prednášajúci: prof. Ing. Ján Paralič, PhD., e-mail: Jan.Paralic at tuke.sk
                         doc. Ing. Peter Bednár, PhD., e-mail: Peter.Bednar at tuke.sk

Cvičiaci: Ing. Oliver Lohaj, PhD., e-mail: Oliver.Lohaj at tuke.sk

Anotácia

I. Vyhľadávanie informácií z množiny textových dokumentov. Klasické a alternatívne modely pre vyhľadávanie informácií, boolovský model, vektorový model, pravdepodobnostný model. Predspracovanie textových dokumentov. Vyhodnocovanie systémov pre vyhľadávanie informácií. Vyhľadávanie na webe. Architektúra crawler-indexer. Ekonomické aspekty vyhľadávania, marketing založený na vyhľadávaní, spôsob fungovania AdWords. Vyhľadávanie s využitím štruktúry liniek. Algoritmy PageRank a HITS.

II. Dolovanie znalostí z textov. Základné kroky, príklady aplikačných oblastí. Metódy analýzy prirodzeného jazyka. Predspracovanie textov do vhodnej reprezentácie, jazykové úrovne a metódy predspracovania textov. Syntaktická reprezentácia textov, morfologické značkovanie, syntaktické parsovanie, závislostné stromy. Zjednoznačnenie významu, WordNet, redukcia príznakového priestoru, selekcia termov, Latentné Sémantické Indexovanie (LSI). Extrahovanie, analýza, interpretovanie a vizualizácia tém. Analýza sentimentu. Klasifikácia emócií, SenticNet model. Extrahovanie informácií (entít, udalostí, vzťahov a faktov). Pravidlá a slovníky, štatistické metódy, skryté Markovove modely, rekurentné neurónové siete, hĺbkové učenie. Rozlíšenie koreferencií, ontológie, extrahovanie relácií.

III. Manažment znalostí: Faktory ovplyvňujúce manažment znalostí (MZ). Konceptuálny pohľad na manažment znalostí. Jednotlivé úrovne práce so znalosťami. Životný cyklus znalostí (socializácia, externalizácia, kombinácia, internalizácia). Ďalšie uhly pohľadu na manažment znalostí. Základná architektúra systému pre podporu manažmentu znalostí (SMZ) v organizácii a príklady konkrétnych systémov SMZ. Univerzalistický vs. podmienený pohľad na MZ. Identifikácia vhodného typu riešenia manažmentom znalostí. Vplyv manažmentu znalostí (MZ) na organizáciu a hodnotenie MZ.


Prednášky     Cvičenia     Spôsob hodnotenia     Literatúra


Podklady k prednáškam a cvičeniam, ako aj ďalšie aktuálne informácie sú priebežne zverejňované v MS Teams

Približný harmonogram prednášok

Téma

1. Vyhľadávanie informácií z množiny textových dokumentov. Proces vyhľadávania informácií (information retrieval – IR). Taxonómia modelov pre IR. Formálna definícia IR modelu. Klasické modely pre IR.
Boolovský model pre vyhľadávanie informácií z množiny textových dokumentov - vnútorná reprezentácia incidenčnou maticou term-dokument, invertovaný index, vyhodnotenie základných dopytov nad invertovaným indexom

2. Vektorový model pre vyhľadávanie informácií z množiny textových dokumentov - rôzne spôsoby váhovania a výpočet miery relevancie dokumentu voči dopytu - ranking. 

Pravdepodobnostný model pre vyhľadávanie informácií z množiny textových dokumentov.

3. Vyhodnocovanie systémov pre vyhľadávanie informácií. Rôzne kritériá pre hodnotenie IR systémov. Hodnotenie efektívnosti vyhľadávania (spokojnosť používateľa). Presnosť, návratnosť, F mierat.j. hodnotenie výsledkov bez usporiadania (unranked retrieval set). Grafické znázornenie závislosti presnosti a návratnostit.j. hodnotenie usporiadaných výsledkov vyhľadávania (ranked retrieval set). Sumarizačné mierky efektívnosti vyhľadávania.

4. Vyhľadávanie na webe. Veľmi stručná história vyhľadávania na webe. Architektúra crawler-indexer, základné požiadavky na crawler, jeho základná architektúra. Typy používateľských dopytov, kategórie. Ekonomické aspekty vyhľadávania, marketing založený na vyhľadávaní, spôsob fungovania AdWords. Vyhľadávanie s využitím štruktúry liniek. Algoritmy PageRank a HITS. 

5. Dolovanie znalostí z textov - 1. časť. Základné kroky procesu objavovania znalostí v textoch. Príklady aplikačných oblastí. Automatické spracovanie prirodzeného jazyka. Problémy pri spracovaní prirodzeného jazyka. Metódy analýzy prirodzeného jazyka

6. Dolovanie znalostí z textov - 2. časť. Identifikácia relevantných textových dát. Formáty textových dát, kódovanie textu, harmonizácia dát, integrácia dát. Predspracovanie textov do vhodnej reprezentácie, jazykové úrovne a metódy predspracovania textov. Tokenizácia, extrahovanie termov, stemming, lematizácia, odstránenie stopslov, extrahovanie postupností slov a n-gramov. Syntaktická reprezentácia textov, morfologické značkovanie, syntaktické parsovanie, závislostné stromy.

7. Dolovanie znalostí z textov - 3. časť. Integrovanie a predspracovanie textov do vhodnej reprezentácie. Zjednoznačnenie významu, WordNet, redukcia príznakového priestoru, selekcia termov, Latentné Sémantické Indexovanie (LSI). Použitie metód pre extrahovanie znalostí na predspracovaných dátach - modelovanie. Klasifikácia, lineárne modely, logistická regresia, SVM, semikontrolované učenie, aktívne učenie. Zhlukovanie, k-means, SOM, extrahovanie popisu zhlukov, vizualizácia zhlukov.

8. Dolovanie znalostí z textov - 4. časť. Extrahovanie tém, LSI (latentné sémantické indexovanie), pravdepodobnostný model tém, LDA (latentná dirichletova alokácia), analýza tém v dátových prúdoch. Interpretovanie tém, vizualizácia tém. Analýza sentimentu, metódy analýzy sentimentu. Využitie semikontrolovaného a aktívneho učenia. Klasifikácia emócií, SenticNet model.

9. Dolovanie znalostí z textov - 5. časť. Extrahovanie informácií: extrahovanie entít, udalostí, vzťahov a faktov. Pravidlá a slovníky, štatistické metódy, skryté Markovove modely, rekurentné neurónové siete, hĺbkové učenie. Rozlíšenie koreferencií, ontológie, extrahovanie relácií. Niekoľko príkladov extrahovania informácií

10. Dolovanie znalostí z textov - 6. časť. Veľké jazykové modely: základné princípy a spôsoby ich využitia, architektúry, učenie modelov, meranie kvality výsledkov, prompt engineering. 

11. Manažment znalostípraxi. Pozvaná prednáška

12. Jednotlivé uhly pohľadu na manažment znalostí. Systémy pre podporu manažmentu znalostí (SMZ) v organizácii a príklady konkrétnych SMZ, vrátane systémov vyvinutých v rámci európskych projektov na našej katedre: KnowWebWebocrat.

13. Faktory ovplyvňujúce manažment znalostí (MZ). Univerzalistický, alebo podmienený pohľad na MZ. Vplyv charakteristík riešených úloh. Vplyv charakteristík používaných znalostí. Vplyv charakteristík organizácie. Vplyv charakteristiky vonkajšieho prostredia. Metodológia pre výber vhodného typu riešenia manažmentom znalostí.

 


Približný harmonogram cvičení

Týždeň

Náplň cvičenia

Poznámky

1.

Oboznámenie sa s organizáciou cvičení, modelom práce na cvičeniach a zadaniach, ako aj spôsobom ich hodnotenia.

 

2.

Boolovský model - vnútorná reprezentácia incidenčnou maticou term-dokument, invertovaný index, vyhodnotenie základných dopytov nad invertovaným indexom.

 

3.

Vektorový model - rôzne spôsoby váhovania a výpočet miery relevancie dokumentu voči dopytu - ranking.

 

4.

Hodnotenie efektívnosti vyhľadávania: výpočet metrík presnosť, návratnosť, F miera (výsledky vyhľadávania bez usporiadania). Krivka presnosť-návratnosť a jej normovaná verzia (usporiadané výsledky vyhľadávania). Sumarizačné mierky MAP a R-presnosť.

 

5.

Algoritmus PageRank.

6.

Projektová práca, konzultácie

 

7.

1. písomka

1. písomka (max. 10b)

8.

Projektová práca, konzultácie

 

9.

Algoritmus HITS.

10.

2. písomka

2. písomka (max. 10b)

11.

Projektová práca, konzultácie

12.

Odovzdávanie zadaní (max. 20b)

 

13.

Projektová práca, konzultácie

 

 


Spôsob hodnotenia

·        2. písomka: max. 10 bodov

        -------------------------------------------
          Spolu za cvičenia: max. 40 bodov

 

·        Úlohy z prednášok a záverečný test na skúške: spolu max 60 bodov

        ---------------------------------------------------------------------------------
          Spolu: max. 100 bodov


Študijná literatúra:

  1. Paralič, J., Furdík, K., Tutoky, G., Bednár, P., Sarnovský, M., Butka, P., Babič, F.: Dolovanie znalostí z textov. Equilibria, s.r.o., Košice, 2010, 184 s.
  2. Paralič J. (editor): Knowledge Management. Technical University Kosice, 2015, ISBN 978-80-553-2100-4, 90 p.
  3. Manning, C.D., Raghavan, P., Schutze, H.: Introduction to Information Retrieval, Cambridge University Press, 2008.
  4. Baeza-Yates, R. - Ribeiro-Neto, B.: Modern Information Retrieval. Addison Wesley, 1999.
  5. Bureš, V.: Znalostní management a proces jeho zavádění. Grada, 2007.
  6. Becerra-Fernandez, I. - Gonzalez, A. - Sabherwal, R.: Knowledge Management - Challenges, Solutions, and Technologies. Pearson, Prentice Hall, 2004.
  7. Borghoff, U. - Pareschi, R.: Information Technology for Knowledge Management. Springer, 1998.
  8. Tiwana, A.: The Knowledge Management Tookit. Practical Techniques for Building a Knowledge Management System. Prentice Hall, 2000.
  9. Elektronické databázy zahraničné (autorizovaný prístup do databáz sprostredkovaný univerzitnou knižnicou TU. Prístup do väčšiny externých elektronických databáz (bibliografické databázy, úplné texty článkov z časopisov a zborníkov, online knihy, ...) je viazaný na IP adresu proxy servera tuke.sk (iba v rámci TU) a je potrebné správne nastavenie prehliadača.