Skip to content

sains-data/analisis-big-data

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

2 Commits
 
 

Repository files navigation

Mata Kuliah Analisis Big Data

Repository ini berisi materi perkuliahan, modul praktikum, konfigurasi infrastruktur, serta studi kasus untuk mata kuliah Analisis Big Data (Mahadata). Mata kuliah ini membekali mahasiswa dengan pemahaman konseptual dan keterampilan teknis dalam merancang, mengelola, memproses, dan menganalisis data berskala besar menggunakan ekosistem Big Data modern.

Capaian Pembelajaran

Setelah mengikuti mata kuliah ini, mahasiswa diharapkan:

  1. Mampu menguasai fenomena, framework, peluang dan tantangan dari keseluruhan aktivitas yang berhubungan dengan Big Data.
  2. Mampu menguasai perbedaan kompleksitas permasalahan big data dan non-big data dalam konteks analitik sains data.
  3. Mampu menguasai proses koleksi data dan mengklasifikasikan jenis big data berdasarkan sumber dan karakteristiknya.
  4. Mampu menjelaskan dan menganalisis siklus hidup pengelolaan big data dari akuisisi hingga pengarsipan data.
  5. Mampu mengimplementasikan teknik web scraping untuk akuisisi big data dari berbagai sumber terbuka secara profesional.
  6. Mampu merancang infrastruktur dan klaster sistem untuk big data serta menjelaskan ekosistem Hadoop dalam arsitektur big data.
  7. Mampu menerapkan proses pemrosesan data menggunakan paradigma MapReduce dalam lingkungan big data.
  8. Mampu memodelkan dan menyimpan data besar dengan teknologi big data secara efisien.
  9. Mampu menjelaskan konsep aliran data berkelanjutan serta menerapkan teknik ingestion data secara dinamis.
  10. Mampu mengimplementasikan teknologi Apache Spark untuk pemrosesan lanjutan data berskala besar untuk kebutuhan analisis big data.
  11. Mampu melakukan eksplorasi dan visualisasi big data untuk menyampaikan insight dari data dalam konteks permasalahan wilayah.
  12. Mampu mengembangkan dan mengotomasi proses analitik big data serta mengelola klaster produksi untuk solusi data skala besar.

Topik Perkuliahan

Pengantar, Konsep, dan Infrastruktur Big Data

  1. Pengantar Analisis Big Data

Menjelaskan definisi, karakteristik (Volume, Velocity, Variety, Veracity, Value), serta pentingnya analisis big data dalam konteks modern (Deskriptif, Diagnostik, Prediktif, Prespektif, dan Kognitif). Menyinggung perubahan paradigma dari data tradisional ke big data.

  • Definisi dan karakteristik Big Data (5V: Volume, Velocity, Variety, Veracity, Value)
  • Jenis analisis data: Deskriptif, Diagnostik, Prediktif, Preskriptif, dan Kognitif
  • Perubahan paradigma dari data tradisional ke big data
  • Peran Big Data dalam pengambilan keputusan modern
  1. Konseptual Pengelolaan Big Data

Membahas siklus hidup data (data lifecycle), metadata, prinsip pengelolaan data modern seperti data governance, data security, dan data quality management.

  • Data lifecycle (akuisisi hingga arsip)
  • Metadata dan data catalog
  • Data governance dan data stewardship
  • Data security dan data quality management
  1. Perancangan Infrastruktur dan Kluster

Mengulas desain arsitektur sistem big data, termasuk kebutuhan komputasi, skalabilitas, replikasi, serta topologi dan konfigurasi dasar kluster big data.

  • Arsitektur sistem Big Data
  • Kebutuhan komputasi, storage, dan network
  • Skalabilitas, replikasi, dan fault tolerance
  • Topologi dan konfigurasi dasar kluster Big Data

Fundamental Platform Big Data

  1. Ekosistem Hadoop

Memperkenalkan komponen utama Hadoop: HDFS, YARN, dan MapReduce. Menjelaskan bagaimana Hadoop menjadi fondasi utama sistem pengolahan big data secara terdistribusi.

  • Hadoop Distributed File System (HDFS)
  • YARN sebagai resource manager
  • MapReduce sebagai engine pemrosesan batch
  • Hadoop sebagai fondasi sistem big data terdistribusi
  1. Pemrosesan Data dengan MapReduce

Menggali lebih dalam tentang konsep MapReduce, alur kerja, cara menulis job, dan optimasi proses batch dalam kluster Hadoop.

  • Hadoop Distributed File System (HDFS)
  • YARN sebagai resource manager
  • MapReduce sebagai engine pemrosesan batch
  • Hadoop sebagai fondasi sistem mahadata terdistribusi

Penyimpanan dan Model Big Data

  1. Sistem Penyimpanan Big Data

Menjelaskan format penyimpanan seperti Parquet, ORC, Avro, serta kompresi, partisi, dan pemilihan format untuk efisiensi dan kecepatan pemrosesan.

  • Format data: Parquet, ORC, Avro
  • Teknik kompresi dan partisi
  • Strategi pemilihan format penyimpanan
  • Dampak format terhadap performa analitik
  1. Pemodelan dan Gudang Big Data

Mengulas pendekatan modeling pada mahadata, seperti skema denormalisasi (Star, Snowflake), serta pemanfaatan Hive dan HBase untuk query dan warehousing.

  • Pemodelan data big data
  • Skema denormalisasi: Star dan Snowflake
  • Apache Hive untuk query dan data warehousing
  • Apache HBase untuk NoSQL dan akses real-time

Teknologi Apache Spark

  1. Integrasi Big Data dengan Spark

Mengenalkan Apache Spark sebagai sistem pemrosesan cepat, fleksibel, dan in-memory yang digunakan berdampingan dengan Hadoop. Menjelaskan integrasi dengan HDFS dan YARN.

  • Konsep Apache Spark
  • Pemrosesan in-memory dan distributed computing
  • Integrasi Spark dengan HDFS dan YARN
  • Perbandingan Spark dan MapReduce
  1. Pemrosesan Data Lanjutan Berskala Besar

Melanjutkan pertemuan 8, fokus pada Spark SQL, DataFrame, Dataset, dan teknik optimasi seperti Catalyst dan Tungsten dalam pemrosesan data besar.

  • Spark SQL, DataFrame, dan Dataset
  • Query optimization dengan Catalyst Optimizer
  • Engine eksekusi Tungsten
  • Best practice pemrosesan data skala besar
  • Teknik web scraping untuk akuisisi big data dari berbagai sumber terbuka secara profesional.
  1. Aliran Data Berkelanjutan

Membahas pemrosesan real-time menggunakan Spark Streaming, Structured Streaming, serta integrasi dengan sistem message broker seperti Apache Kafka.

  • Konsep real-time data processing
  • Spark Streaming dan Structured Streaming
  • Integrasi dengan Apache Kafka
  • Use case streaming analytics

Teknik Ingesti Big Data

  1. Dinamika Aliran dan Ingesti Data

Menjelaskan berbagai teknik ingest data dari berbagai sumber ke Hadoop/Spark menggunakan Sqoop, Flume, Apache NiFi, termasuk perbandingan batch vs streaming ingestion.

  • Batch ingestion vs streaming ingestion
  • Apache Sqoop untuk data relasional
  • Apache Flume untuk log ingestion
  • Apache NiFi untuk dataflow orchestration

Eksplorasi Data Analitik

  1. Visualisasi dan Eksplorasi Big Data

Membahas tools visualisasi seperti Apache Superset, Tableau, serta pendekatan eksploratif terhadap big data untuk mendukung insight bisnis dan teknis.

  • Exploratory Data Analysis (EDA) pada big data
  • Visualisasi dengan Apache Superset
  • Integrasi dengan Tableau dan BI tools lainnya
  • Analitik untuk insight bisnis dan teknis

Produksi dan Operasionalisasi Big Data

  1. Pengembangan dan Automasi Analitik Big Data

Menjelaskan strategi pengembangan pipeline analitik big data, automasi alur kerja (workflow scheduling), serta pengelolaan job dan dependency dengan tools seperti Oozie dan Airflow.

  • Desain pipeline analitik Big Data
  • Workflow scheduling dan orchestration
  • Apache Oozie dan Apache Airflow
  • Manajemen dependency dan job automation
  1. Pengelolaan dan Operasional Kluster Produksi

Membahas praktik terbaik dalam pengelolaan kluster Hadoop/Spark produksi, termasuk monitoring (Ambari, Prometheus), high availability, backup, dan disaster recovery.

  • Best practice pengelolaan kluster produksi
  • Monitoring dan observability (Ambari, Prometheus, Grafana)
  • High availability dan fault tolerance
  • Backup dan disaster recovery

Teknologi dan Tools yang Digunakan

  1. Apache Hadoop (HDFS, YARN, MapReduce)
  2. Apache Spark (Core, SQL, Streaming)
  3. Apache Hive & HBase
  4. Apache Kafka
  5. Apache NiFi, Sqoop, Flume
  6. Apache Airflow / Oozie
  7. Apache Superset
  8. Linux Ubuntu / Cloud Infrastructure
  9. Docker

Struktur Repository

.
├── 01-pengantar-big-data/
├── 02-pengelolaan-big-data/
├── 03-infrastruktur-kluster/
├── 04-hadoop-ecosystem/
├── 05-mapreduce/
├── 06-penyimpanan-big-data/
├── 07-big-data-warehouse/
├── 08-spark-integration/
├── 09-spark-advanced/
├── 10-streaming-kafka/
├── 11-data-ingestion/
├── 12-visualisasi-eda/
├── 13-big-data-pipeline/
├── 14-operasional-kluster/
└── README.md

Referensi Utama

  1. Mastering Hadoop 3: Big data processing at scale to unlock unique business insights (2019)
  2. Big Data Using Hadoop and Hive: Master Big Data Solutions with Hadoop and Hive (2024)
  3. Practical Big Data Analytics: Hands-on techniques to implement enterprise analytics and machine learning using Hadoop, Spark, NoSQL and R (2018)
  4. Artificial Intelligence for Big Data: Complete guide to automating Big Data solutions using Artificial Intelligence techniques (2018)
  5. Big Data Analytics: Real time analytics using Apache Spark and Hadoop (2016)
  6. Real-Time Big Data Analytics: Design, process, and analyze large sets of complex data in real time (2016)
  7. Modern Big Data Processing with Hadoop: Expert techniques for architecting end-to-end big data solutions to get valuable insights (2018)

Catatan

Repository ini dikembangkan untuk keperluan akademik, mencakup pembelajaran, praktikum, dan implementasi nyata sistem Big Data untuk mata kuliah Analisis Big Data. Mahasiswa diharapkan tidak hanya memahami konsep, tetapi juga mampu mengoperasikan dan mengevaluasi sistem big data skala produksi.

Silakan gunakan sesuai kebutuhan akademik dan kontribusi melalui pull request sangat kami hargai.

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors