Skip to content

ruschh/Tech-Insights-Machine-Learning-Pipelines

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

2 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

CI License: MIT Python 3.11+

Tech Insights & ML Pipelines

Estrutura de diretórios

tech-insights-ml-pipelines/
├── data/   
│   └── raw/         
│        ├── dados_tech_financas_completos.csv
│        └── Instagram data.csv
├── notebooks/
│   ├── EDA_TECH.ipynb
│   ├── MACHINE_LEARNING_PROJECT_AB.ipynb
│   └── PIPELINE_MACHINE_LEARNING_PROJECT1.ipynb
├── src/
│   ├── data_preprocessing.py
│   ├── eda.py
│   ├── __init__.py
│   │   └── build_features.py
│   ├── models.py
│   └── utils.py
├── requirements.txt
├── LICENSE
└── README.md

1. Contexto e Objetivo

Este repositório reúne um conjunto de projetos completos em Ciência de Dados que abrangem:

  1. Análise Exploratória de Dados (EDA) em empresas de tecnologia;

  2. Construção de um pipeline de Machine Learning aplicado a dados de redes sociais (Instagram);

  3. Modelagem supervisionada e não supervisionada, com testes comparativos de algoritmos e métricas de desempenho.

Os notebooks aqui incluídos foram desenvolvidos em Python e estruturados para serem totalmente reprodutíveis, com foco em boas práticas, clareza metodológica e preparação para uso em pipelines de produção.

1.1 EDA – Análise Financeira de Empresas de Tecnologia

Notebook: EDA_TECH.ipynb

Objetivo

Explorar dados financeiros de empresas do setor de tecnologia, identificar padrões essenciais e extrair insights que auxiliem decisões de investimento.

Conteúdo Principal

  • Análise descritiva de variáveis financeiras;

  • Uso de NumPy, Pandas, Matplotlib e Seaborn;

  • Visualizações como séries temporais, histogramas, boxplots e gráficos comparativos;

  • Discussões sobre volatilidade, crescimento, dispersões e assimetrias;

  • Indicadores como média, mediana, desvio-padrão e correlações.

Saídas Relevantes

  • Identificação de padrões de comportamento financeiro;

  • Observação de assimetrias de distribuição e possíveis riscos;

  • Gráficos de tendência e volatilidade.

1.2 Machine Learning — Projeto com Dados do Instagram

Notebook: MACHINE_LEARNING_PROJECT_AB.ipynb

Objetivo

Construir modelos de Machine Learning para explorar e prever padrões relacionados a métricas de engajamento em posts do Instagram, usando dataset público do Kaggle.

Conteúdo Principal

  • Limpeza e padronização dos dados;

  • Feature engineering para variáveis como likes, seguidores, posts, engajamento;

  • Aplicação de modelos baselines (regressões, árvores, ensembles);

  • Comparação de desempenho via métricas;

  • Visualizações e interpretação dos resultados.

Modelos Utilizados

  • Regressão Linear

  • Ridge / Lasso / ElasticNet

  • Random Forest

  • Gradient Boosting

  • Outros algoritmos testados conforme estrutura dos dados

Resultados

  • Identificação dos modelos com melhor capacidade preditiva;

  • Interpretação via métricas, gráficos e tabelas;

  • Avaliação da importância das variáveis (feature importance).

1.3 Pipeline Completo de Machine Learning

Notebook: PIPELINE_MACHINE_LEARNING_PROJECT1.ipynb

Objetivo

Desenvolver uma pipeline estruturada, desde a preparação dos dados até a avaliação final do modelo, incluindo pré-processamento robusto e integração de técnicas supervisionadas e não supervisionadas.

Componentes da Pipeline

  • Pré-processamento completo: imputação, encoding, normalização;

  • Seleção de features;

  • Treinamento e validação com K-Fold ou TimeSeriesSplit (quando apropriado);

  • Testes comparativos entre múltiplos algoritmos;

  • Clusterização com KMeans e redução de dimensionalidade com PCA;

  • Geração de gráficos e interpretação dos clusters;

Tecnologias e Bibliotecas

  • pandas, numpy

  • scikit-learn

  • matplotlib

  • seaborn

  • warnings, collections

2. Como Executar o Projeto

  1. Clone o repositório
git clone https://github.com/<seu-usuario>/tech-insights-ml-pipelines.git
cd tech-insights-ml-pipelines
  1. Crie um ambiente virtual
python -m venv venv
source venv/bin/activate   # Linux/macOS
venv\Scripts\activate      # Windows
  1. Instale as dependências
pip install -r requirements.txt
  1. Abra os notebooks
jupyter notebook

4. Resultados e Insights

  • Identificação de padrões significativos no comportamento financeiro de empresas tech.

  • Modelos preditivos aplicados a dados de redes sociais, com avaliação rigorosa e comparativa.

  • Pipeline completo e escalável de Machine Learning, ideal para integração em dashboards ou APIs.

5. Créditos

  • Projeto desenvolvido como portfólio de Ciência de Dados, integrando:

  • Análises exploratórias em dados financeiros;

  • Modelagem de Machine Learning com dados de redes sociais;

  • Construção de pipelines reutilizáveis para experimentos de ML

About

No description, website, or topics provided.

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors