Web Crawler para Recuperación de Información

Este proyecto es un web crawler desarrollado en Java, diseñado para recorrer directorios, procesar archivos de texto y construir un índice invertido. Posteriormente, permite buscar palabras específicas y obtener su frecuencia en los archivos analizados.

Características

Exploración Iterativa de directorios y archivos de texto.
Procesamiento de texto para contar la frecuencia de palabras.
Almacenamiento y carga del índice en un archivo serializado.
Búsqueda optimizada de términos con soporte para múltiples archivos.
Implementación de un sistema de conocimiento usando un Thesauro.

Estructura de Ficheros en árbol a explorar

Modo de Uso

Indexación de archivos: Al ejecutarlo, el programa recorrerá los archivos en el directorio E1 y generará un diccionario con las frecuencias de las palabras.
Búsqueda de palabras: En la segunda fase, puedes introducir palabras clave y el sistema te mostrará su frecuencia en cada archivo.
Salida del programa: Para salir de la búsqueda, simplemente presiona ESC.

Name		Name	Last commit message	Last commit date
Latest commit History 26 Commits
E1		E1
lib		lib
CargarObjeto.java		CargarObjeto.java
GuardarObjeto.java		GuardarObjeto.java
HTMLparse.java		HTMLparse.java
ListaURLs.java		ListaURLs.java
MSExcelParse.java		MSExcelParse.java
Ocurrencia.java		Ocurrencia.java
PDFParse.java		PDFParse.java
ProcesadorArchivos.java		ProcesadorArchivos.java
README.md		README.md
TextParser.java		TextParser.java
XMLParse.java		XMLParse.java
diccionario.ser		diccionario.ser
settings.json		settings.json
thesauro.txt		thesauro.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Web Crawler para Recuperación de Información

Características

Modo de Uso

Autores: Víctor Navareño, Sergio Terrazas Lobato, Muhammad Zain Din

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

Web Crawler para Recuperación de Información

Características

Modo de Uso

Autores: Víctor Navareño, Sergio Terrazas Lobato, Muhammad Zain Din

About

Topics

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages