Repository ini berisi materi perkuliahan, modul praktikum, konfigurasi infrastruktur, serta studi kasus untuk mata kuliah Analisis Big Data (Mahadata). Mata kuliah ini membekali mahasiswa dengan pemahaman konseptual dan keterampilan teknis dalam merancang, mengelola, memproses, dan menganalisis data berskala besar menggunakan ekosistem Big Data modern.
Setelah mengikuti mata kuliah ini, mahasiswa diharapkan:
- Mampu menguasai fenomena, framework, peluang dan tantangan dari keseluruhan aktivitas yang berhubungan dengan Big Data.
- Mampu menguasai perbedaan kompleksitas permasalahan big data dan non-big data dalam konteks analitik sains data.
- Mampu menguasai proses koleksi data dan mengklasifikasikan jenis big data berdasarkan sumber dan karakteristiknya.
- Mampu menjelaskan dan menganalisis siklus hidup pengelolaan big data dari akuisisi hingga pengarsipan data.
- Mampu mengimplementasikan teknik web scraping untuk akuisisi big data dari berbagai sumber terbuka secara profesional.
- Mampu merancang infrastruktur dan klaster sistem untuk big data serta menjelaskan ekosistem Hadoop dalam arsitektur big data.
- Mampu menerapkan proses pemrosesan data menggunakan paradigma MapReduce dalam lingkungan big data.
- Mampu memodelkan dan menyimpan data besar dengan teknologi big data secara efisien.
- Mampu menjelaskan konsep aliran data berkelanjutan serta menerapkan teknik ingestion data secara dinamis.
- Mampu mengimplementasikan teknologi Apache Spark untuk pemrosesan lanjutan data berskala besar untuk kebutuhan analisis big data.
- Mampu melakukan eksplorasi dan visualisasi big data untuk menyampaikan insight dari data dalam konteks permasalahan wilayah.
- Mampu mengembangkan dan mengotomasi proses analitik big data serta mengelola klaster produksi untuk solusi data skala besar.
- Pengantar Analisis Big Data
Menjelaskan definisi, karakteristik (Volume, Velocity, Variety, Veracity, Value), serta pentingnya analisis big data dalam konteks modern (Deskriptif, Diagnostik, Prediktif, Prespektif, dan Kognitif). Menyinggung perubahan paradigma dari data tradisional ke big data.
- Definisi dan karakteristik Big Data (5V: Volume, Velocity, Variety, Veracity, Value)
- Jenis analisis data: Deskriptif, Diagnostik, Prediktif, Preskriptif, dan Kognitif
- Perubahan paradigma dari data tradisional ke big data
- Peran Big Data dalam pengambilan keputusan modern
- Konseptual Pengelolaan Big Data
Membahas siklus hidup data (data lifecycle), metadata, prinsip pengelolaan data modern seperti data governance, data security, dan data quality management.
- Data lifecycle (akuisisi hingga arsip)
- Metadata dan data catalog
- Data governance dan data stewardship
- Data security dan data quality management
- Perancangan Infrastruktur dan Kluster
Mengulas desain arsitektur sistem big data, termasuk kebutuhan komputasi, skalabilitas, replikasi, serta topologi dan konfigurasi dasar kluster big data.
- Arsitektur sistem Big Data
- Kebutuhan komputasi, storage, dan network
- Skalabilitas, replikasi, dan fault tolerance
- Topologi dan konfigurasi dasar kluster Big Data
- Ekosistem Hadoop
Memperkenalkan komponen utama Hadoop: HDFS, YARN, dan MapReduce. Menjelaskan bagaimana Hadoop menjadi fondasi utama sistem pengolahan big data secara terdistribusi.
- Hadoop Distributed File System (HDFS)
- YARN sebagai resource manager
- MapReduce sebagai engine pemrosesan batch
- Hadoop sebagai fondasi sistem big data terdistribusi
- Pemrosesan Data dengan MapReduce
Menggali lebih dalam tentang konsep MapReduce, alur kerja, cara menulis job, dan optimasi proses batch dalam kluster Hadoop.
- Hadoop Distributed File System (HDFS)
- YARN sebagai resource manager
- MapReduce sebagai engine pemrosesan batch
- Hadoop sebagai fondasi sistem mahadata terdistribusi
- Sistem Penyimpanan Big Data
Menjelaskan format penyimpanan seperti Parquet, ORC, Avro, serta kompresi, partisi, dan pemilihan format untuk efisiensi dan kecepatan pemrosesan.
- Format data: Parquet, ORC, Avro
- Teknik kompresi dan partisi
- Strategi pemilihan format penyimpanan
- Dampak format terhadap performa analitik
- Pemodelan dan Gudang Big Data
Mengulas pendekatan modeling pada mahadata, seperti skema denormalisasi (Star, Snowflake), serta pemanfaatan Hive dan HBase untuk query dan warehousing.
- Pemodelan data big data
- Skema denormalisasi: Star dan Snowflake
- Apache Hive untuk query dan data warehousing
- Apache HBase untuk NoSQL dan akses real-time
- Integrasi Big Data dengan Spark
Mengenalkan Apache Spark sebagai sistem pemrosesan cepat, fleksibel, dan in-memory yang digunakan berdampingan dengan Hadoop. Menjelaskan integrasi dengan HDFS dan YARN.
- Konsep Apache Spark
- Pemrosesan in-memory dan distributed computing
- Integrasi Spark dengan HDFS dan YARN
- Perbandingan Spark dan MapReduce
- Pemrosesan Data Lanjutan Berskala Besar
Melanjutkan pertemuan 8, fokus pada Spark SQL, DataFrame, Dataset, dan teknik optimasi seperti Catalyst dan Tungsten dalam pemrosesan data besar.
- Spark SQL, DataFrame, dan Dataset
- Query optimization dengan Catalyst Optimizer
- Engine eksekusi Tungsten
- Best practice pemrosesan data skala besar
- Teknik web scraping untuk akuisisi big data dari berbagai sumber terbuka secara profesional.
- Aliran Data Berkelanjutan
Membahas pemrosesan real-time menggunakan Spark Streaming, Structured Streaming, serta integrasi dengan sistem message broker seperti Apache Kafka.
- Konsep real-time data processing
- Spark Streaming dan Structured Streaming
- Integrasi dengan Apache Kafka
- Use case streaming analytics
- Dinamika Aliran dan Ingesti Data
Menjelaskan berbagai teknik ingest data dari berbagai sumber ke Hadoop/Spark menggunakan Sqoop, Flume, Apache NiFi, termasuk perbandingan batch vs streaming ingestion.
- Batch ingestion vs streaming ingestion
- Apache Sqoop untuk data relasional
- Apache Flume untuk log ingestion
- Apache NiFi untuk dataflow orchestration
- Visualisasi dan Eksplorasi Big Data
Membahas tools visualisasi seperti Apache Superset, Tableau, serta pendekatan eksploratif terhadap big data untuk mendukung insight bisnis dan teknis.
- Exploratory Data Analysis (EDA) pada big data
- Visualisasi dengan Apache Superset
- Integrasi dengan Tableau dan BI tools lainnya
- Analitik untuk insight bisnis dan teknis
- Pengembangan dan Automasi Analitik Big Data
Menjelaskan strategi pengembangan pipeline analitik big data, automasi alur kerja (workflow scheduling), serta pengelolaan job dan dependency dengan tools seperti Oozie dan Airflow.
- Desain pipeline analitik Big Data
- Workflow scheduling dan orchestration
- Apache Oozie dan Apache Airflow
- Manajemen dependency dan job automation
- Pengelolaan dan Operasional Kluster Produksi
Membahas praktik terbaik dalam pengelolaan kluster Hadoop/Spark produksi, termasuk monitoring (Ambari, Prometheus), high availability, backup, dan disaster recovery.
- Best practice pengelolaan kluster produksi
- Monitoring dan observability (Ambari, Prometheus, Grafana)
- High availability dan fault tolerance
- Backup dan disaster recovery
- Apache Hadoop (HDFS, YARN, MapReduce)
- Apache Spark (Core, SQL, Streaming)
- Apache Hive & HBase
- Apache Kafka
- Apache NiFi, Sqoop, Flume
- Apache Airflow / Oozie
- Apache Superset
- Linux Ubuntu / Cloud Infrastructure
- Docker
.
├── 01-pengantar-big-data/
├── 02-pengelolaan-big-data/
├── 03-infrastruktur-kluster/
├── 04-hadoop-ecosystem/
├── 05-mapreduce/
├── 06-penyimpanan-big-data/
├── 07-big-data-warehouse/
├── 08-spark-integration/
├── 09-spark-advanced/
├── 10-streaming-kafka/
├── 11-data-ingestion/
├── 12-visualisasi-eda/
├── 13-big-data-pipeline/
├── 14-operasional-kluster/
└── README.md
- Mastering Hadoop 3: Big data processing at scale to unlock unique business insights (2019)
- Big Data Using Hadoop and Hive: Master Big Data Solutions with Hadoop and Hive (2024)
- Practical Big Data Analytics: Hands-on techniques to implement enterprise analytics and machine learning using Hadoop, Spark, NoSQL and R (2018)
- Artificial Intelligence for Big Data: Complete guide to automating Big Data solutions using Artificial Intelligence techniques (2018)
- Big Data Analytics: Real time analytics using Apache Spark and Hadoop (2016)
- Real-Time Big Data Analytics: Design, process, and analyze large sets of complex data in real time (2016)
- Modern Big Data Processing with Hadoop: Expert techniques for architecting end-to-end big data solutions to get valuable insights (2018)
Repository ini dikembangkan untuk keperluan akademik, mencakup pembelajaran, praktikum, dan implementasi nyata sistem Big Data untuk mata kuliah Analisis Big Data. Mahasiswa diharapkan tidak hanya memahami konsep, tetapi juga mampu mengoperasikan dan mengevaluasi sistem big data skala produksi.
Silakan gunakan sesuai kebutuhan akademik dan kontribusi melalui pull request sangat kami hargai.