Dalam praktik sehari-hari sebagai mahasiswa IT, data analyst pemula, atau developer, kita hampir selalu berhadapan dengan data mentah yang tidak rapi. Mulai dari nilai kosong, format tidak konsisten, sampai data duplikat.
Pada blog ini, saya akan membahas cara melakukan data cleaning menggunakan Python dengan VS Code, lengkap dengan panduan langkah demi langkah dan rekomendasi posisi screenshot/foto praktik agar blog mudah dipahami.
- 🎯 Tujuan Artikel
- 🛠️ Tools yang Digunakan
- 📂 1. Menyiapkan Project di VS Code
- 📄 2. Membaca Dataset Menggunakan Python
- 🔍 3. Mengecek Kondisi Data
- 🕳️ 4. Menangani Missing Value
- 🔁 5. Menghapus Data Duplikat
- 🧾 6. Mengubah Tipe Data
- ✏️ 7. Jalankan File Python nya di Terminal VSCode nya
- 💾 8. Menyimpan Data yang Sudah Bersih
- ✅ Tips Praktis untuk Blog IT
- ✨ Penutup
🎯 Tujuan Artikel
- Membersihkan data menggunakan Python
- Menggunakan Visual Studio Code (VS Code) sebagai editor
- Praktis dan mudah diikuti pemula
- Cocok untuk blog, portfolio, atau dokumentasi belajar
🛠️ Tools yang Digunakan
- Python 3.x
- Visual Studio Code
- Extension Python (Microsoft)
- Library: Pandas, NumPy
pip install pandas numpy

Ketika sudah terdownload pasti akan muncul seperti ini
📂 1. Menyiapkan Project di VS Code
Buat folder project, misalnya:
data-cleaning-python/
│── data_penjualan.csv
│── clean_data.py
Buka folder tersebut di VS Code.

📄 2. Membaca Dataset Menggunakan Python
Buat file clean_data.py, lalu tuliskan kode berikut:
import pandas as pd
# Membaca data
df = pd.read_csv('data_penjualan.csv')
print(df.head())
Kode ini digunakan untuk memastikan data berhasil dibaca.

🔍 3. Mengecek Kondisi Data
Sebelum membersihkan data, kita harus memahami kondisinya
Dari sini kita bisa mengetahui:
- Kolom dengan nilai kosong
- Tipe data yang tidak sesuai

🕳️ 4. Menangani Missing Value
a. Menghapus Baris Kosong
df = df.dropna()
b. Mengisi Nilai Kosong
df['jumlah'] = df['jumlah'].fillna(df['jumlah'].mean())
df['kategori'] = df['kategori'].fillna('Unknown')

🔁 5. Menghapus Data Duplikat
print(df.duplicated().sum())
df = df.drop_duplicates()
Langkah ini penting agar data tidak bias.

🧾 6. Mengubah Tipe Data
Konversi Kolom Tanggal
df['tanggal'] = pd.to_datetime(df['tanggal'], errors='coerce')
Konversi Kolom Numerik
df['harga'] = pd.to_numeric(df['harga'], errors='coerce')

✏️ 7. Jalankan File Python nya di Terminal VSCode nya
python clean_data.py
Digunakan agar data konsisten dan mudah dianalisis.
📸 Tempatkan Foto 8 di sini

💾 8. Menyimpan Data yang Sudah Bersih
Ketika sudah menyimpan file nya akan muncul file baru di foldernya seperti ini
File ini siap digunakan untuk analisis lanjutan.

✅ Tips Praktis untuk Blog IT
- Gunakan screenshot asli dari praktik sendiri
- Jangan terlalu banyak teks dalam satu paragraf
- Setiap kode penting sebaiknya ada visual
- Beri nama file dan folder yang konsisten
✨ Penutup
Data cleaning menggunakan Python di VS Code adalah skill dasar yang wajib dikuasai di dunia IT dan data. Dengan workflow sederhana seperti ini, kita sudah bisa menghasilkan data yang rapi dan siap dianalisis.
Artikel ini cocok untuk:
- Blog IT pribadi
- Portfolio Data Analyst
- Dokumentasi belajar Python
Ke depannya, artikel ini bisa dikembangkan ke:
- Exploratory Data Analysis (EDA)
- Visualisasi data
- Machine Learning dasar
🚀 Dengan kebiasaan praktik yang konsisten, skill data akan berkembang jauh lebih cepat.