tech-insights-ml-pipelines/
├── data/
│ └── raw/
│ ├── dados_tech_financas_completos.csv
│ └── Instagram data.csv
├── notebooks/
│ ├── EDA_TECH.ipynb
│ ├── MACHINE_LEARNING_PROJECT_AB.ipynb
│ └── PIPELINE_MACHINE_LEARNING_PROJECT1.ipynb
├── src/
│ ├── data_preprocessing.py
│ ├── eda.py
│ ├── __init__.py
│ │ └── build_features.py
│ ├── models.py
│ └── utils.py
├── requirements.txt
├── LICENSE
└── README.md
Este repositório reúne um conjunto de projetos completos em Ciência de Dados que abrangem:
-
Análise Exploratória de Dados (EDA) em empresas de tecnologia;
-
Construção de um pipeline de Machine Learning aplicado a dados de redes sociais (Instagram);
-
Modelagem supervisionada e não supervisionada, com testes comparativos de algoritmos e métricas de desempenho.
Os notebooks aqui incluídos foram desenvolvidos em Python e estruturados para serem totalmente reprodutíveis, com foco em boas práticas, clareza metodológica e preparação para uso em pipelines de produção.
Notebook: EDA_TECH.ipynb
Explorar dados financeiros de empresas do setor de tecnologia, identificar padrões essenciais e extrair insights que auxiliem decisões de investimento.
Conteúdo Principal
-
Análise descritiva de variáveis financeiras;
-
Uso de NumPy, Pandas, Matplotlib e Seaborn;
-
Visualizações como séries temporais, histogramas, boxplots e gráficos comparativos;
-
Discussões sobre volatilidade, crescimento, dispersões e assimetrias;
-
Indicadores como média, mediana, desvio-padrão e correlações.
Saídas Relevantes
-
Identificação de padrões de comportamento financeiro;
-
Observação de assimetrias de distribuição e possíveis riscos;
-
Gráficos de tendência e volatilidade.
Notebook: MACHINE_LEARNING_PROJECT_AB.ipynb
Construir modelos de Machine Learning para explorar e prever padrões relacionados a métricas de engajamento em posts do Instagram, usando dataset público do Kaggle.
Conteúdo Principal
-
Limpeza e padronização dos dados;
-
Feature engineering para variáveis como likes, seguidores, posts, engajamento;
-
Aplicação de modelos baselines (regressões, árvores, ensembles);
-
Comparação de desempenho via métricas;
-
Visualizações e interpretação dos resultados.
Modelos Utilizados
-
Regressão Linear
-
Ridge / Lasso / ElasticNet
-
Random Forest
-
Gradient Boosting
-
Outros algoritmos testados conforme estrutura dos dados
Resultados
-
Identificação dos modelos com melhor capacidade preditiva;
-
Interpretação via métricas, gráficos e tabelas;
-
Avaliação da importância das variáveis (feature importance).
Notebook: PIPELINE_MACHINE_LEARNING_PROJECT1.ipynb
Objetivo
Desenvolver uma pipeline estruturada, desde a preparação dos dados até a avaliação final do modelo, incluindo pré-processamento robusto e integração de técnicas supervisionadas e não supervisionadas.
Componentes da Pipeline
-
Pré-processamento completo: imputação, encoding, normalização;
-
Seleção de features;
-
Treinamento e validação com K-Fold ou TimeSeriesSplit (quando apropriado);
-
Testes comparativos entre múltiplos algoritmos;
-
Clusterização com KMeans e redução de dimensionalidade com PCA;
-
Geração de gráficos e interpretação dos clusters;
Tecnologias e Bibliotecas
-
pandas, numpy
-
scikit-learn
-
matplotlib
-
seaborn
-
warnings, collections
- Clone o repositório
git clone https://github.com/<seu-usuario>/tech-insights-ml-pipelines.git
cd tech-insights-ml-pipelines
- Crie um ambiente virtual
python -m venv venv
source venv/bin/activate # Linux/macOS
venv\Scripts\activate # Windows
- Instale as dependências
pip install -r requirements.txt
- Abra os notebooks
jupyter notebook
-
Identificação de padrões significativos no comportamento financeiro de empresas tech.
-
Modelos preditivos aplicados a dados de redes sociais, com avaliação rigorosa e comparativa.
-
Pipeline completo e escalável de Machine Learning, ideal para integração em dashboards ou APIs.
-
Projeto desenvolvido como portfólio de Ciência de Dados, integrando:
-
Análises exploratórias em dados financeiros;
-
Modelagem de Machine Learning com dados de redes sociais;
-
Construção de pipelines reutilizáveis para experimentos de ML