Skip to content

The repository contains files (notebooks, data) for the course work of the 2nd course: "Topic modeling for text document analysis".

Notifications You must be signed in to change notification settings

yuuusha/topic-modeling

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

4 Commits
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Репозиторий содержит файлы (ноутбуки, данные) к курсовой работе 2 курса по теме "Тематическое моделирование для анализа текстовых документов".

Тематическое моделирование – прием машинного обучения без учителя для определения тем коллекций документов.

LDA – генеративная вероятностная модель, использующая распределение Дирихле для обнаружения тем.

LSA – метод, анализирующий взаимосвязь между текстамии терминами для выявления сходства.

NMF – алгоритмы линейной алгебры для разложения матриц, имеющее внутреннее свойство кластеризации.

В исследовании был использован датасет, содержащий тексты на английском языке, относящиеся к одной из четырех категорий:

  • компьютерные науки;
  • математика;
  • физика;
  • статистика.

Темы, которые выявила модель LDA:

image

Нетрудно заметить, что тема №0 может определять категорию «Статистика», тема №1 скорее относится к категории «Компьютерные науки», тема №2 может определять как «Математику», так и «Физику», а в теме №3 четко прослеживается категория «Физика».

Точность модели составила 61%.

Темы, которые выявила модель LSA:

image

image

C задачей модель справилось несколько хуже предыдущей, однако видно, что тема №0 предположительно относится к категории «Компьютерные науки», тема №1 больше похожа на «Статистику», тема №2 скорее всего является «Математикой» и тема №3 сочетает в себе слова из категории «Физика».

В качестве одного из преимуществ LSA выделяют переход в семантическое пространство – условная система координат, где каждый текст представлен в виде точки с определенными координатами. В семантическом пространстве можно наглядно увидеть, насколько один текст далеко расположен от другого. Например, тема №3 – «Физика», наиболее далека от темы №0 – «Компьютерные науки», а тема №1 – «Статистика», почти незаметна на фоне темы №0.

Точность модели составляет 33%.

Темы, которые выявила модель NMF:

image

NMF-модель выявила следующие темы: тема №0 соответствует категории «Физика», тема №1 – «Математика», тема №2 – «Компьютерные науки», тема №3 – «Статистика».

Точность модели составляет 44%.

Подводя итог, можно сказать, что наихудший результат показала модель LSA: в тему №1 был верно определен лишь один документ. Это можно объяснить тем, что в семантическом пространстве тема №1 почти полностью сливается с темой №0, что делает определение этой темы затруднительным. Также следует подчеркнуть, что LSA хорошо подходит для решения задачи семантического сходства, в то время как LDA лучше справляется с тематическим моделированием. NMF-модель показала средние результаты: это объясняется тем, что она более универсальна и подходит для решения самых различных задач машинного обучения: от кластеризации до тематического моделирования.

На основе данного исследования была написана научная статья "Улучшения качества поиска источников с помощью тематического моделирования" – Информационные технологии в образовании: материалы XVI Всероссийской научно-практической конференции – Саратов: Саратовский университет [издание], 2024. – Вып. 7 – 88-93 с.

About

The repository contains files (notebooks, data) for the course work of the 2nd course: "Topic modeling for text document analysis".

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages