Mata Kuliah Analisis Big Data

Repository ini berisi materi perkuliahan, modul praktikum, konfigurasi infrastruktur, serta studi kasus untuk mata kuliah Analisis Big Data (Mahadata). Mata kuliah ini membekali mahasiswa dengan pemahaman konseptual dan keterampilan teknis dalam merancang, mengelola, memproses, dan menganalisis data berskala besar menggunakan ekosistem Big Data modern.

Capaian Pembelajaran

Setelah mengikuti mata kuliah ini, mahasiswa diharapkan:

Mampu menguasai fenomena, framework, peluang dan tantangan dari keseluruhan aktivitas yang berhubungan dengan Big Data.
Mampu menguasai perbedaan kompleksitas permasalahan big data dan non-big data dalam konteks analitik sains data.
Mampu menguasai proses koleksi data dan mengklasifikasikan jenis big data berdasarkan sumber dan karakteristiknya.
Mampu menjelaskan dan menganalisis siklus hidup pengelolaan big data dari akuisisi hingga pengarsipan data.
Mampu mengimplementasikan teknik web scraping untuk akuisisi big data dari berbagai sumber terbuka secara profesional.
Mampu merancang infrastruktur dan klaster sistem untuk big data serta menjelaskan ekosistem Hadoop dalam arsitektur big data.
Mampu menerapkan proses pemrosesan data menggunakan paradigma MapReduce dalam lingkungan big data.
Mampu memodelkan dan menyimpan data besar dengan teknologi big data secara efisien.
Mampu menjelaskan konsep aliran data berkelanjutan serta menerapkan teknik ingestion data secara dinamis.
Mampu mengimplementasikan teknologi Apache Spark untuk pemrosesan lanjutan data berskala besar untuk kebutuhan analisis big data.
Mampu melakukan eksplorasi dan visualisasi big data untuk menyampaikan insight dari data dalam konteks permasalahan wilayah.
Mampu mengembangkan dan mengotomasi proses analitik big data serta mengelola klaster produksi untuk solusi data skala besar.

Topik Perkuliahan

Pengantar, Konsep, dan Infrastruktur Big Data

Pengantar Analisis Big Data

Menjelaskan definisi, karakteristik (Volume, Velocity, Variety, Veracity, Value), serta pentingnya analisis big data dalam konteks modern (Deskriptif, Diagnostik, Prediktif, Prespektif, dan Kognitif). Menyinggung perubahan paradigma dari data tradisional ke big data.

Definisi dan karakteristik Big Data (5V: Volume, Velocity, Variety, Veracity, Value)
Jenis analisis data: Deskriptif, Diagnostik, Prediktif, Preskriptif, dan Kognitif
Perubahan paradigma dari data tradisional ke big data
Peran Big Data dalam pengambilan keputusan modern

Konseptual Pengelolaan Big Data

Membahas siklus hidup data (data lifecycle), metadata, prinsip pengelolaan data modern seperti data governance, data security, dan data quality management.

Data lifecycle (akuisisi hingga arsip)
Metadata dan data catalog
Data governance dan data stewardship
Data security dan data quality management

Perancangan Infrastruktur dan Kluster

Mengulas desain arsitektur sistem big data, termasuk kebutuhan komputasi, skalabilitas, replikasi, serta topologi dan konfigurasi dasar kluster big data.

Arsitektur sistem Big Data
Kebutuhan komputasi, storage, dan network
Skalabilitas, replikasi, dan fault tolerance
Topologi dan konfigurasi dasar kluster Big Data

Fundamental Platform Big Data

Ekosistem Hadoop

Memperkenalkan komponen utama Hadoop: HDFS, YARN, dan MapReduce. Menjelaskan bagaimana Hadoop menjadi fondasi utama sistem pengolahan big data secara terdistribusi.

Hadoop Distributed File System (HDFS)
YARN sebagai resource manager
MapReduce sebagai engine pemrosesan batch
Hadoop sebagai fondasi sistem big data terdistribusi

Pemrosesan Data dengan MapReduce

Menggali lebih dalam tentang konsep MapReduce, alur kerja, cara menulis job, dan optimasi proses batch dalam kluster Hadoop.

Hadoop Distributed File System (HDFS)
YARN sebagai resource manager
MapReduce sebagai engine pemrosesan batch
Hadoop sebagai fondasi sistem mahadata terdistribusi

Penyimpanan dan Model Big Data

Sistem Penyimpanan Big Data

Menjelaskan format penyimpanan seperti Parquet, ORC, Avro, serta kompresi, partisi, dan pemilihan format untuk efisiensi dan kecepatan pemrosesan.

Format data: Parquet, ORC, Avro
Teknik kompresi dan partisi
Strategi pemilihan format penyimpanan
Dampak format terhadap performa analitik

Pemodelan dan Gudang Big Data

Mengulas pendekatan modeling pada mahadata, seperti skema denormalisasi (Star, Snowflake), serta pemanfaatan Hive dan HBase untuk query dan warehousing.

Pemodelan data big data
Skema denormalisasi: Star dan Snowflake
Apache Hive untuk query dan data warehousing
Apache HBase untuk NoSQL dan akses real-time

Teknologi Apache Spark

Integrasi Big Data dengan Spark

Mengenalkan Apache Spark sebagai sistem pemrosesan cepat, fleksibel, dan in-memory yang digunakan berdampingan dengan Hadoop. Menjelaskan integrasi dengan HDFS dan YARN.

Konsep Apache Spark
Pemrosesan in-memory dan distributed computing
Integrasi Spark dengan HDFS dan YARN
Perbandingan Spark dan MapReduce

Pemrosesan Data Lanjutan Berskala Besar

Melanjutkan pertemuan 8, fokus pada Spark SQL, DataFrame, Dataset, dan teknik optimasi seperti Catalyst dan Tungsten dalam pemrosesan data besar.

Spark SQL, DataFrame, dan Dataset
Query optimization dengan Catalyst Optimizer
Engine eksekusi Tungsten
Best practice pemrosesan data skala besar
Teknik web scraping untuk akuisisi big data dari berbagai sumber terbuka secara profesional.

Aliran Data Berkelanjutan

Membahas pemrosesan real-time menggunakan Spark Streaming, Structured Streaming, serta integrasi dengan sistem message broker seperti Apache Kafka.

Konsep real-time data processing
Spark Streaming dan Structured Streaming
Integrasi dengan Apache Kafka
Use case streaming analytics

Teknik Ingesti Big Data

Dinamika Aliran dan Ingesti Data

Menjelaskan berbagai teknik ingest data dari berbagai sumber ke Hadoop/Spark menggunakan Sqoop, Flume, Apache NiFi, termasuk perbandingan batch vs streaming ingestion.

Batch ingestion vs streaming ingestion
Apache Sqoop untuk data relasional
Apache Flume untuk log ingestion
Apache NiFi untuk dataflow orchestration

Eksplorasi Data Analitik

Visualisasi dan Eksplorasi Big Data

Membahas tools visualisasi seperti Apache Superset, Tableau, serta pendekatan eksploratif terhadap big data untuk mendukung insight bisnis dan teknis.

Exploratory Data Analysis (EDA) pada big data
Visualisasi dengan Apache Superset
Integrasi dengan Tableau dan BI tools lainnya
Analitik untuk insight bisnis dan teknis

Produksi dan Operasionalisasi Big Data

Pengembangan dan Automasi Analitik Big Data

Menjelaskan strategi pengembangan pipeline analitik big data, automasi alur kerja (workflow scheduling), serta pengelolaan job dan dependency dengan tools seperti Oozie dan Airflow.

Desain pipeline analitik Big Data
Workflow scheduling dan orchestration
Apache Oozie dan Apache Airflow
Manajemen dependency dan job automation

Pengelolaan dan Operasional Kluster Produksi

Membahas praktik terbaik dalam pengelolaan kluster Hadoop/Spark produksi, termasuk monitoring (Ambari, Prometheus), high availability, backup, dan disaster recovery.

Best practice pengelolaan kluster produksi
Monitoring dan observability (Ambari, Prometheus, Grafana)
High availability dan fault tolerance
Backup dan disaster recovery

Teknologi dan Tools yang Digunakan

Apache Hadoop (HDFS, YARN, MapReduce)
Apache Spark (Core, SQL, Streaming)
Apache Hive & HBase
Apache Kafka
Apache NiFi, Sqoop, Flume
Apache Airflow / Oozie
Apache Superset
Linux Ubuntu / Cloud Infrastructure
Docker

Struktur Repository

.
├── 01-pengantar-big-data/
├── 02-pengelolaan-big-data/
├── 03-infrastruktur-kluster/
├── 04-hadoop-ecosystem/
├── 05-mapreduce/
├── 06-penyimpanan-big-data/
├── 07-big-data-warehouse/
├── 08-spark-integration/
├── 09-spark-advanced/
├── 10-streaming-kafka/
├── 11-data-ingestion/
├── 12-visualisasi-eda/
├── 13-big-data-pipeline/
├── 14-operasional-kluster/
└── README.md

Referensi Utama

Mastering Hadoop 3: Big data processing at scale to unlock unique business insights (2019)
Big Data Using Hadoop and Hive: Master Big Data Solutions with Hadoop and Hive (2024)
Practical Big Data Analytics: Hands-on techniques to implement enterprise analytics and machine learning using Hadoop, Spark, NoSQL and R (2018)
Artificial Intelligence for Big Data: Complete guide to automating Big Data solutions using Artificial Intelligence techniques (2018)
Big Data Analytics: Real time analytics using Apache Spark and Hadoop (2016)
Real-Time Big Data Analytics: Design, process, and analyze large sets of complex data in real time (2016)
Modern Big Data Processing with Hadoop: Expert techniques for architecting end-to-end big data solutions to get valuable insights (2018)

Catatan

Repository ini dikembangkan untuk keperluan akademik, mencakup pembelajaran, praktikum, dan implementasi nyata sistem Big Data untuk mata kuliah Analisis Big Data. Mahasiswa diharapkan tidak hanya memahami konsep, tetapi juga mampu mengoperasikan dan mengevaluasi sistem big data skala produksi.

Silakan gunakan sesuai kebutuhan akademik dan kontribusi melalui pull request sangat kami hargai.

Name		Name	Last commit message	Last commit date
Latest commit History 2 Commits
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Mata Kuliah Analisis Big Data

Capaian Pembelajaran

Topik Perkuliahan

Pengantar, Konsep, dan Infrastruktur Big Data

Fundamental Platform Big Data

Penyimpanan dan Model Big Data

Teknologi Apache Spark

Teknik Ingesti Big Data

Eksplorasi Data Analitik

Produksi dan Operasionalisasi Big Data

Teknologi dan Tools yang Digunakan

Struktur Repository

Referensi Utama

Catatan

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Folders and files

Latest commit

History

Repository files navigation

Mata Kuliah Analisis Big Data

Capaian Pembelajaran

Topik Perkuliahan

Pengantar, Konsep, dan Infrastruktur Big Data

Fundamental Platform Big Data

Penyimpanan dan Model Big Data

Teknologi Apache Spark

Teknik Ingesti Big Data

Eksplorasi Data Analitik

Produksi dan Operasionalisasi Big Data

Teknologi dan Tools yang Digunakan

Struktur Repository

Referensi Utama

Catatan

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Packages