Tech Insights & ML Pipelines

Estrutura de diretórios

tech-insights-ml-pipelines/
├── data/   
│   └── raw/         
│        ├── dados_tech_financas_completos.csv
│        └── Instagram data.csv
├── notebooks/
│   ├── EDA_TECH.ipynb
│   ├── MACHINE_LEARNING_PROJECT_AB.ipynb
│   └── PIPELINE_MACHINE_LEARNING_PROJECT1.ipynb
├── src/
│   ├── data_preprocessing.py
│   ├── eda.py
│   ├── __init__.py
│   │   └── build_features.py
│   ├── models.py
│   └── utils.py
├── requirements.txt
├── LICENSE
└── README.md

1. Contexto e Objetivo

Este repositório reúne um conjunto de projetos completos em Ciência de Dados que abrangem:

Análise Exploratória de Dados (EDA) em empresas de tecnologia;
Construção de um pipeline de Machine Learning aplicado a dados de redes sociais (Instagram);
Modelagem supervisionada e não supervisionada, com testes comparativos de algoritmos e métricas de desempenho.

Os notebooks aqui incluídos foram desenvolvidos em Python e estruturados para serem totalmente reprodutíveis, com foco em boas práticas, clareza metodológica e preparação para uso em pipelines de produção.

1.1 EDA – Análise Financeira de Empresas de Tecnologia

Notebook: EDA_TECH.ipynb

Objetivo

Explorar dados financeiros de empresas do setor de tecnologia, identificar padrões essenciais e extrair insights que auxiliem decisões de investimento.

Conteúdo Principal

Análise descritiva de variáveis financeiras;
Uso de NumPy, Pandas, Matplotlib e Seaborn;
Visualizações como séries temporais, histogramas, boxplots e gráficos comparativos;
Discussões sobre volatilidade, crescimento, dispersões e assimetrias;
Indicadores como média, mediana, desvio-padrão e correlações.

Saídas Relevantes

Identificação de padrões de comportamento financeiro;
Observação de assimetrias de distribuição e possíveis riscos;
Gráficos de tendência e volatilidade.

1.2 Machine Learning — Projeto com Dados do Instagram

Notebook: MACHINE_LEARNING_PROJECT_AB.ipynb

Objetivo

Construir modelos de Machine Learning para explorar e prever padrões relacionados a métricas de engajamento em posts do Instagram, usando dataset público do Kaggle.

Conteúdo Principal

Limpeza e padronização dos dados;
Feature engineering para variáveis como likes, seguidores, posts, engajamento;
Aplicação de modelos baselines (regressões, árvores, ensembles);
Comparação de desempenho via métricas;
Visualizações e interpretação dos resultados.

Modelos Utilizados

Regressão Linear
Ridge / Lasso / ElasticNet
Random Forest
Gradient Boosting
Outros algoritmos testados conforme estrutura dos dados

Resultados

Identificação dos modelos com melhor capacidade preditiva;
Interpretação via métricas, gráficos e tabelas;
Avaliação da importância das variáveis (feature importance).

1.3 Pipeline Completo de Machine Learning

Notebook: PIPELINE_MACHINE_LEARNING_PROJECT1.ipynb

Objetivo

Desenvolver uma pipeline estruturada, desde a preparação dos dados até a avaliação final do modelo, incluindo pré-processamento robusto e integração de técnicas supervisionadas e não supervisionadas.

Componentes da Pipeline

Pré-processamento completo: imputação, encoding, normalização;
Seleção de features;
Treinamento e validação com K-Fold ou TimeSeriesSplit (quando apropriado);
Testes comparativos entre múltiplos algoritmos;
Clusterização com KMeans e redução de dimensionalidade com PCA;
Geração de gráficos e interpretação dos clusters;

Tecnologias e Bibliotecas

pandas, numpy
scikit-learn
matplotlib
seaborn
warnings, collections

2. Como Executar o Projeto

Clone o repositório

git clone https://github.com/<seu-usuario>/tech-insights-ml-pipelines.git
cd tech-insights-ml-pipelines

Crie um ambiente virtual

python -m venv venv
source venv/bin/activate   # Linux/macOS
venv\Scripts\activate      # Windows

Instale as dependências

pip install -r requirements.txt

Abra os notebooks

jupyter notebook

4. Resultados e Insights

Identificação de padrões significativos no comportamento financeiro de empresas tech.
Modelos preditivos aplicados a dados de redes sociais, com avaliação rigorosa e comparativa.
Pipeline completo e escalável de Machine Learning, ideal para integração em dashboards ou APIs.

5. Créditos

Projeto desenvolvido como portfólio de Ciência de Dados, integrando:
Análises exploratórias em dados financeiros;
Modelagem de Machine Learning com dados de redes sociais;
Construção de pipelines reutilizáveis para experimentos de ML

Name		Name	Last commit message	Last commit date
Latest commit History 2 Commits
data/raw		data/raw
notebooks		notebooks
src		src
.gitignore		.gitignore
LICENSE		LICENSE
Makefile		Makefile
README.md		README.md
environment.yml		environment.yml
requirements.txt		requirements.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Tech Insights & ML Pipelines

Estrutura de diretórios

1. Contexto e Objetivo

1.1 EDA – Análise Financeira de Empresas de Tecnologia

Objetivo

1.2 Machine Learning — Projeto com Dados do Instagram

Objetivo

1.3 Pipeline Completo de Machine Learning

2. Como Executar o Projeto

4. Resultados e Insights

5. Créditos

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

Tech Insights & ML Pipelines

Estrutura de diretórios

1. Contexto e Objetivo

1.1 EDA – Análise Financeira de Empresas de Tecnologia

Objetivo

1.2 Machine Learning — Projeto com Dados do Instagram

Objetivo

1.3 Pipeline Completo de Machine Learning

2. Como Executar o Projeto

4. Resultados e Insights

5. Créditos

About

Resources

License

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages