У курсі висвітлюється огляд та прийоми застосування сучасних рішень (state of art) у галузі текстової аналітики. В результаті прослуховування курсів лекцій і проведення лабораторних робіт студенти повинні отримати базові навички і знання в області обробки та управління знаннями, використання підходів і прийомів обробки слабо структурованої інформації, яку представляє текст на природній мові. Розкрито питання вилучення знань з тексту шляхом збагачення його метаданими з використанням категорій і витяганням емоційного забарвлення щодо об'єктів, що згадуються в тексті і їх властивостей, за допомогою інструментів Text Mining компанії SAS
Text Mining (текстова аналітика) є напрямом Data Mining, що вікористовує методи та алгоритми видобуття знань з напівструктурованих даних, таких як тексти або веб-сторінки.
Савастьянов Володимир Володимирович
Розробник
Зміст курсу:
- введення в предмет: огляд продуктів компанії SAS для вирішення завдань тектових аналітики;
- задача вилучення метаданих з текстів;
- таксономія, категорізатор, релевантність, базові визначення в задачах категоризації текстів;
- використання SAS CC Studio для вирішення завдань категоризації; побудова булевих і лінгвістичних правил; обмеження;
- приклади категоризаторів; приклади правил, адаптація правил російською, українською, російською мовами в рамках лабораторних робіт;
- введення в завдання вилучення фактів; приклади правил для вилучення фактів;
- обробка і візуалізація результатів (на прикладі SAS EG, SAS VA)