๐ Overview #
Kursus ini dirancang untuk membekali peserta dengan keterampilan membangun data pipeline menggunakan Python. Peserta akan memahami bagaimana mengintegrasikan data dari berbagai sumber, membersihkan, mentransformasikan, serta mengautomasi aliran data untuk kebutuhan analisis maupun penyimpanan di warehouse. Fokus pada praktik nyata membangun pipeline dengan modul Python populer dan tools ETL yang banyak digunakan industri.
๐ Struktur Silabus #
Modul 1: Pengenalan Data Pipeline #
- Konsep ETL (Extract, Transform, Load)
- Perbedaan batch processing vs streaming
- Arsitektur dasar data pipeline
Modul 2: Python untuk Data Manipulasi #
- Library Pandas untuk data wrangling
- Handling missing values, normalisasi, encoding
- Data transformation dengan NumPy
Modul 3: Menghubungkan Python dengan Database #
- Koneksi ke SQL database (PostgreSQL, MySQL, SQLite)
- Querying data menggunakan Python (SQLAlchemy, psycopg2)
- Penyimpanan hasil transformasi ke database
Modul 4: Extract Data dari API dan File #
- Membaca data CSV, JSON, Excel
- Konsumsi data dari REST API (requests)
- Handling data format (XML, Parquet, Avro)
Modul 5: Automasi Pipeline dengan Python #
- Scheduling pipeline dengan cron / Airflow dasar
- Logging & error handling dalam pipeline
- Membuat modular ETL script
Modul 6: Data Pipeline dengan Tools Populer #
- Apache Airflow (workflow orchestration)
- Luigi / Prefect (alternatif orkestrasi)
- Integrasi pipeline ke data warehouse (BigQuery, Snowflake, Redshift)
Modul 7: Proyek Akhir #
- Membuat pipeline data yang mengekstrak data dari API publik โ transformasi dengan Pandas โ load ke database PostgreSQL
- Dokumentasi dan deployment sederhana
๐ ๏ธ Tools & Software #
- Python 3.x
- Jupyter Notebook / VS Code
- Library: Pandas, NumPy, SQLAlchemy, Requests, PySpark (opsional)
- PostgreSQL / MySQL
- Apache Airflow (basic orchestration)
- Git untuk version control
๐ฏ Output Kompetensi #
Setelah mengikuti kursus, peserta mampu:
โ
Memahami arsitektur ETL & data pipeline
โ
Menulis Python script untuk extract, transform, load data
โ
Menghubungkan pipeline ke database & API
โ
Menggunakan Apache Airflow untuk orkestrasi pipeline
โ
Membuat pipeline data end-to-end yang siap di-deploy
โณ Durasi Kursus #
- Total: 16 Jam (2x sesi @ 8 jam)
- Mode: Online/Offline
๐ฐ Biaya Kursus #
- Kelas Private: Rp 2.000.000
- Kelas Reguler: Rp 1.000.000