AutoTM — это открытая библиотека по обучению тематических моделей. Основными особенностями AutoTM являются простота использования, скорость настройки моделей, а также возможность кастомной модификации пайплайнов. Библиотека работает с русским и английским языками и не требует долгой предварительной подготовки документов для обработки.
Внутренняя реализация основана на поэтапном дообучении моделей с настройкой гиперпараметров каждого этапа с помощью разработанного эволюционного алгоритма. Скорость оптимизации поддерживается суррогатным моделированием, позволяющим заменять процедуру обучения и проверки качества модели приближенным значением. Работа с большими текстовыми корпусами возможна в распределенном режиме библиотеки, использующем spark-кластер.
Производимая мягкая кластеризация (получение матриц вероятностей принадлежности тем к документам и слов к темам) позволяет получить интерпретируемые результаты обработки корпуса данных. Результаты тематического моделирования могут использоваться при первичной обработке данных; при очистке — с целью отбора наиболее информативных данных; для формирования векторов-представлений документов, используемых для конечных задач.