Репозиторий содержит файлы (ноутбуки, данные) к курсовой работе 2 курса по теме "Тематическое моделирование для анализа текстовых документов".
Тематическое моделирование – прием машинного обучения без учителя для определения тем коллекций документов.
LDA – генеративная вероятностная модель, использующая распределение Дирихле для обнаружения тем.
LSA – метод, анализирующий взаимосвязь между текстамии терминами для выявления сходства.
NMF – алгоритмы линейной алгебры для разложения матриц, имеющее внутреннее свойство кластеризации.
В исследовании был использован датасет, содержащий тексты на английском языке, относящиеся к одной из четырех категорий:
- компьютерные науки;
- математика;
- физика;
- статистика.
Темы, которые выявила модель LDA:
Нетрудно заметить, что тема №0 может определять категорию «Статистика», тема №1 скорее относится к категории «Компьютерные науки», тема №2 может определять как «Математику», так и «Физику», а в теме №3 четко прослеживается категория «Физика».
Точность модели составила 61%.
Темы, которые выявила модель LSA:
C задачей модель справилось несколько хуже предыдущей, однако видно, что тема №0 предположительно относится к категории «Компьютерные науки», тема №1 больше похожа на «Статистику», тема №2 скорее всего является «Математикой» и тема №3 сочетает в себе слова из категории «Физика».
В качестве одного из преимуществ LSA выделяют переход в семантическое пространство – условная система координат, где каждый текст представлен в виде точки с определенными координатами. В семантическом пространстве можно наглядно увидеть, насколько один текст далеко расположен от другого. Например, тема №3 – «Физика», наиболее далека от темы №0 – «Компьютерные науки», а тема №1 – «Статистика», почти незаметна на фоне темы №0.
Точность модели составляет 33%.
Темы, которые выявила модель NMF:
NMF-модель выявила следующие темы: тема №0 соответствует категории «Физика», тема №1 – «Математика», тема №2 – «Компьютерные науки», тема №3 – «Статистика».
Точность модели составляет 44%.
Подводя итог, можно сказать, что наихудший результат показала модель LSA: в тему №1 был верно определен лишь один документ. Это можно объяснить тем, что в семантическом пространстве тема №1 почти полностью сливается с темой №0, что делает определение этой темы затруднительным. Также следует подчеркнуть, что LSA хорошо подходит для решения задачи семантического сходства, в то время как LDA лучше справляется с тематическим моделированием. NMF-модель показала средние результаты: это объясняется тем, что она более универсальна и подходит для решения самых различных задач машинного обучения: от кластеризации до тематического моделирования.
На основе данного исследования была написана научная статья "Улучшения качества поиска источников с помощью тематического моделирования" – Информационные технологии в образовании: материалы XVI Всероссийской научно-практической конференции – Саратов: Саратовский университет [издание], 2024. – Вып. 7 – 88-93 с.