Співавтор: Гоголев О.Ю.
Постійне зростання темпів виробництва інформації призводить до непропорційного росту "інформаційного шуму" через слабку структурованість даних, невідповідність формально релевантної інформації дійсним потребам та її багаторазове дублювання. Пошук інформаційному просторі, який систематично оновлюється може бути спрощений за допомогою категоризації Особливу проблему "інформаційний шум" становить для інтернет-магазинів. Бази каталогів інтернет-магазинів містять близько півтора мільйона товарів різних фірм. Ціни постійно змінюються, частина товарів перестає продаватись, в продажу з'являються нові товари. З цієї причини інтернет-каталог змушений постійно оновлювати свою базу. А при кожному оновленні бази необхідно категоризувати товари. На сьогодні немає єдиного підходу до вирішення цього завдання. У роботі представлена математична постановка задачі категоризації товарів, виділені наступні етапи її рішення: індексація, класифікація та оцінка ефективності. Експериментальне дослідження класифікаторів (наївного байєсівського класифікатора, методу опорних векторів і дерев прийняття рішення) показало, що для вирішення завдання категоризації найбільш ефективним є метод опорних векторів.