GitHub - yuuusha/topic-modeling: The repository contains files (notebooks, data) for the course work of the 2nd course: "Topic modeling for text document analysis".

Репозиторий содержит файлы (ноутбуки, данные) к курсовой работе 2 курса по теме "Тематическое моделирование для анализа текстовых документов".

Тематическое моделирование – прием машинного обучения без учителя для определения тем коллекций документов.

LDA – генеративная вероятностная модель, использующая распределение Дирихле для обнаружения тем.

LSA – метод, анализирующий взаимосвязь между текстамии терминами для выявления сходства.

NMF – алгоритмы линейной алгебры для разложения матриц, имеющее внутреннее свойство кластеризации.

В исследовании был использован датасет, содержащий тексты на английском языке, относящиеся к одной из четырех категорий:

компьютерные науки;
математика;
физика;
статистика.

Темы, которые выявила модель LDA:

Нетрудно заметить, что тема №0 может определять категорию «Статистика», тема №1 скорее относится к категории «Компьютерные науки», тема №2 может определять как «Математику», так и «Физику», а в теме №3 четко прослеживается категория «Физика».

Точность модели составила 61%.

Темы, которые выявила модель LSA:

C задачей модель справилось несколько хуже предыдущей, однако видно, что тема №0 предположительно относится к категории «Компьютерные науки», тема №1 больше похожа на «Статистику», тема №2 скорее всего является «Математикой» и тема №3 сочетает в себе слова из категории «Физика».

В качестве одного из преимуществ LSA выделяют переход в семантическое пространство – условная система координат, где каждый текст представлен в виде точки с определенными координатами. В семантическом пространстве можно наглядно увидеть, насколько один текст далеко расположен от другого. Например, тема №3 – «Физика», наиболее далека от темы №0 – «Компьютерные науки», а тема №1 – «Статистика», почти незаметна на фоне темы №0.

Точность модели составляет 33%.

Темы, которые выявила модель NMF:

NMF-модель выявила следующие темы: тема №0 соответствует категории «Физика», тема №1 – «Математика», тема №2 – «Компьютерные науки», тема №3 – «Статистика».

Точность модели составляет 44%.

Подводя итог, можно сказать, что наихудший результат показала модель LSA: в тему №1 был верно определен лишь один документ. Это можно объяснить тем, что в семантическом пространстве тема №1 почти полностью сливается с темой №0, что делает определение этой темы затруднительным. Также следует подчеркнуть, что LSA хорошо подходит для решения задачи семантического сходства, в то время как LDA лучше справляется с тематическим моделированием. NMF-модель показала средние результаты: это объясняется тем, что она более универсальна и подходит для решения самых различных задач машинного обучения: от кластеризации до тематического моделирования.

На основе данного исследования была написана научная статья "Улучшения качества поиска источников с помощью тематического моделирования" – Информационные технологии в образовании: материалы XVI Всероссийской научно-практической конференции – Саратов: Саратовский университет [издание], 2024. – Вып. 7 – 88-93 с.

Name		Name	Last commit message	Last commit date
Latest commit History 4 Commits
temp/nlp		temp/nlp
LDA_work.py		LDA_work.py
LSA_work.py		LSA_work.py
NMF_work.py		NMF_work.py
README.md		README.md
Курсовая.pdf		Курсовая.pdf

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

About

Uh oh!

Releases

Packages

Languages

yuuusha/topic-modeling

Folders and files

Latest commit

History

Repository files navigation

About

Topics

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages