Доклад посвящен методу периодического тематического поиска в Web, основанному на совместном использовании механизмов поиска по ключевым словам и классификаторов. Информационная потребность пользователя в рамках предлагаемого метода определяется набором текстов, описывающих его область специализации.
В докладе будут рассмотрены вопросы первичной фильтрации документов, предварительного анализа текста и определения релевантности документа интересам пользователя на основе алгоритмов классификации. Предварительный анализ текста включает в себя лингвистический анализ, выбор и оценку весов признаков. В работе рассматривается адаптация синтаксического анализатора применительно к поставленной задаче. Также автором предложены следующие масштабируемые алгоритмы классификации:
Алгоритм на основе построения нескольких разделяющих гиперплоскостей для решения задачи бинарной классификации.
Модифицированный алгоритм Байеса для решения задачи классификации с большим количеством классов в обучающей выборке.
Предложены условия применения алгоритмов на основе оценок вычислительной сложности и экпериментального сравнения качества их результатов. Показана эффективность предложенного метода.
|