AutoTM
Программный комплекс для автоматического подбора гиперпараметров для тематических моделей на основе аддитивной регуляризации
Лаборатория: Когнитивные технологии в промышленности
Natural Language Processing
Исследовательский центр «Сильный ИИ в промышленности»
Ходорченко Мария Андреевна, руководитель направления mkhodorchenko@niuitmo.com
AutoTM — это открытая библиотека по обучению тематических моделей. Основными особенностями AutoTM являются простота использования, скорость настройки моделей, а также возможность кастомной модификации пайплайнов. Библиотека работает с русским и английским языками и не требует долгой предварительной подготовки документов для обработки.

Внутренняя реализация основана на поэтапном дообучении моделей с настройкой гиперпараметров каждого этапа с помощью разработанного эволюционного алгоритма. Скорость оптимизации поддерживается суррогатным моделированием, позволяющим заменять процедуру обучения и проверки качества модели приближенным значением. Работа с большими текстовыми корпусами возможна в распределенном режиме библиотеки, использующем spark-кластер.

Производимая мягкая кластеризация (получение матриц вероятностей принадлежности тем к документам и слов к темам) позволяет получить интерпретируемые результаты обработки корпуса данных. Результаты тематического моделирования могут использоваться при первичной обработке данных; при очистке — с целью отбора наиболее информативных данных; для формирования векторов-представлений документов, используемых для конечных задач.
© Исследовательский центр «Сильный искусственный интеллект в промышленности» Университета ИТМО, 2025
Все материалы, размещённые на данном сайте, являются объектами авторского права. Запрещается их копирование, распространение или любое иное использование без указания первоисточника.