- Pendahuluan
- Step by Step Data Cleaning Menggunakan CMD (Lengkap dengan Praktik)
- Langkah 1: Login MySQL Menggunakan CMD
- Langkah 2: Membuat dan Mengaktifkan Database
- Langkah 3: Import File SQL Menggunakan CMD
- Langkah 4: Mengecek Struktur dan Isi Data
- Langkah 5: Membersihkan Data NULL atau Kosong
- Langkah 6: Menghapus Data Duplikat
- Langkah 7: Standarisasi dan Perapihan Format Data
- Langkah 8: Validasi Data Setelah Cleaning
- Kesimpulan
- Penutup
Pendahuluan
Data cleaning merupakan salah satu tahap terpenting dalam proses analisis data. Seorang Data Analyst tidak bisa langsung melakukan analisis tanpa memastikan bahwa data yang digunakan bersih, konsisten, dan bebas dari kesalahan. Data mentah biasanya mengandung nilai kosong, duplikasi, kesalahan format, hingga error saat proses import database.
Pada kondisi tertentu, terutama ketika bekerja dengan data berukuran besar atau file berbentuk SQL, penggunaan Command Prompt (CMD) menjadi solusi yang sangat efektif. Melalui CMD dan perintah SQL, data cleaning dapat dilakukan secara langsung, cepat, dan terkontrol tanpa bergantung pada tools visual.
Artikel ini membahas cara melakukan data cleaning menggunakan CMD dengan MySQL atau MariaDB secara lengkap dan praktis, dilengkapi dengan contoh kode yang sering digunakan oleh Data Analyst di dunia kerja.
Step by Step Data Cleaning Menggunakan CMD (Lengkap dengan Praktik)
Langkah 1: Login MySQL Menggunakan CMD
Langkah pertama adalah menghubungkan Command Prompt ke MySQL atau MariaDB. Proses ini memungkinkan kita menjalankan perintah SQL langsung dari terminal.
Praktik:

mysql -u root -p
Setelah memasukkan password, jika berhasil akan muncul tampilan prompt MySQL yang menandakan koneksi sudah aktif.
Langkah 2: Membuat dan Mengaktifkan Database
Salah satu kesalahan paling umum adalah langsung mengimpor file SQL tanpa database aktif. Hal ini akan menyebabkan error database tidak ditemukan.
Praktik:

CREATE DATABASE transactions_db;
USE transactions_db;
Pastikan muncul pesan bahwa database telah berubah sebelum melanjutkan ke tahap berikutnya.
Langkah 3: Import File SQL Menggunakan CMD
Setelah database aktif, file SQL mentah dapat diimpor. Pastikan penulisan path file benar agar tidak terjadi error syntax.
Praktik:

SOURCE D:/transactions_raw.sql;
Jika berhasil, tabel dan data akan otomatis masuk ke database.
Langkah 4: Mengecek Struktur dan Isi Data
Sebelum melakukan data cleaning, Data Analyst perlu memahami struktur data yang ada. Ini penting agar proses pembersihan tepat sasaran.
Praktik:

SHOW TABLES;
DESCRIBE transactions;
SELECT * FROM transactions LIMIT 10;
Langkah ini membantu mengidentifikasi kolom yang berpotensi bermasalah.
Langkah 5: Membersihkan Data NULL atau Kosong
Nilai NULL pada kolom penting dapat memengaruhi hasil analisis. Data dengan nilai NULL bisa dihapus atau diperbaiki tergantung kebutuhan.
Praktik menghapus data NULL:
DELETE FROM transactions
WHERE customer_id IS NULL;
Praktik mengganti NULL dengan nilai default:
UPDATE transactions
SET payment_method = 'Unknown'
WHERE payment_method IS NULL;
Langkah 6: Menghapus Data Duplikat
Data duplikat dapat menyebabkan hasil analisis menjadi bias. Oleh karena itu, duplikasi harus diidentifikasi dan dihapus.
Praktik mengecek duplikasi:

SELECT transaction_id, COUNT(*)
FROM transactions
GROUP BY transaction_id
HAVING COUNT(*) > 1;
Praktik menghapus duplikat:
DELETE t1 FROM transactions t1
JOIN transactions t2
ON t1.transaction_id = t2.transaction_id
AND t1.id > t2.id;
Langkah 7: Standarisasi dan Perapihan Format Data
Format data yang tidak konsisten seperti spasi berlebih atau perbedaan huruf besar dan kecil sering menjadi masalah saat analisis.
Praktik membersihkan spasi:

UPDATE transactions
SET product_name = TRIM(product_name);
Praktik standarisasi huruf:
UPDATE transactions
SET city = UPPER(city);
Langkah 8: Validasi Data Setelah Cleaning
Setelah semua proses cleaning selesai, data perlu divalidasi kembali untuk memastikan kualitasnya meningkat.
Praktik:

SELECT COUNT(*) FROM transactions;
SELECT DISTINCT city FROM transactions;
Jika hasilnya konsisten dan masuk akal, data sudah siap untuk dianalisis.
Kesimpulan
Data cleaning menggunakan CMD adalah keterampilan penting bagi Data Analyst, terutama saat bekerja dengan data berukuran besar atau file SQL. Dengan CMD dan SQL, proses pembersihan data dapat dilakukan secara efisien, terstruktur, dan minim kesalahan. Selain itu, kemampuan ini membantu Data Analyst memahami data secara lebih mendalam dari sisi struktur dan kualitas.
Penutup
Menguasai teknik data cleaning melalui CMD memberikan keunggulan tersendiri bagi seorang Data Analyst. Di balik tampilan terminal yang sederhana, terdapat kendali penuh terhadap data. Analisis yang akurat selalu dimulai dari data yang bersih, dan data yang bersih hanya bisa diperoleh melalui proses cleaning yang tepat.
Dengan memahami dan mempraktikkan langkah-langkah di atas, kamu sudah memiliki fondasi kuat untuk melangkah ke tahap analisis data yang lebih lanjut.
