A SONDA (Sistema de Organização Nacional de Dados Ambientais) é uma rede de estações de coleta de dados ambientais que registra continuamente medições de variáveis meteorológicas, solarimétricas e anemométricas em diferentes regiões do Brasil. Esses dados são fundamentais para estudos climáticos, energéticos e ambientais.
Este repositório contém scripts e notebooks para a curadoria, análise exploratória e validação dos dados da rede SONDA. O processo de curadoria visa identificar, documentar e tratar inconsistências nos dados, garantindo maior confiabilidade para aplicações científicas e técnicas.
Os dados da rede SONDA estão organizados em três categorias principais:
- Dados Solarimétricos: Medições de radiação solar (global, direta, difusa)
- Dados Meteorológicos: Temperatura, umidade, pressão atmosférica, etc.
- Dados Anemométricos: Velocidade e direção do vento em diferentes alturas
Arquivo: 01_Analise_Exploratoria_Solarimetricos.ipynb
- Importação e visualização inicial dos dados solarimétricos
- Análise temporal da disponibilidade de dados por estação
- Visualização de séries temporais específicas (ex: estação BRB)
- Análise de dados em quarentena (potencialmente problemáticos)
Arquivo: 02_Analise_Exploratoria_Formatados.ipynb
- Análise integrada dos três tipos de dados (meteorológicos, solarimétricos e anemométricos)
- Verificação da cobertura temporal dos dados por estação
- Identificação e quantificação de dados faltantes ou inválidos
- Análise estatística descritiva com visualizações temporais
O processo de curadoria utiliza as seguintes técnicas:
- Identificação de valores inválidos: Detecção de códigos especiais (3333.0, -5555.0) ou valores nulos
- Análise de completude: Quantificação da porcentagem de dados válidos por variável e estação
- Verificação temporal: Análise da continuidade e distribuição temporal dos dados
- Visualização de tendências: Análise de séries temporais para identificar anomalias
-
Clone este repositório:
git clone https://github.com/labren/sonda-curadoria.git
-
Execute os notebooks Jupyter para realizar análises específicas:
- Use o Google Colab (links disponíveis nos notebooks)
- Ou execute localmente com um ambiente Python que inclua as dependências necessárias
-
Os dados necessários serão baixados automaticamente via gdown durante a execução dos notebooks
- Python 3.6+
- duckdb
- pandas
- matplotlib
- seaborn
- gdown (para download de arquivos)
Contribuições são bem-vindas! Sinta-se à vontade para abrir issues ou enviar pull requests com melhorias nos scripts de curadoria ou novas análises.