1. Pendahuluan
Dalam banyak proyek analisis data, fokus sering kali langsung tertuju pada pembuatan visualisasi atau penerapan model analitik. Padahal, kualitas hasil analisis sangat ditentukan oleh satu tahap krusial yang sering dianggap remeh, yaitu data cleaning dan data transformation. Data yang tampak lengkap belum tentu valid, dan data yang terlihat rapi belum tentu konsisten.
Kesalahan penulisan, perbedaan format, hingga duplikasi semu adalah bentuk “penyakit” umum pada data yang dikumpulkan dari proses manual atau sistem tanpa validasi ketat. Jika tidak ditangani, masalah ini dapat menghasilkan insight yang bias atau bahkan keliru. Di sinilah OpenRefine berperan bukan hanya sebagai alat pembersih data, tetapi sebagai alat investigasi data yang membantu analis memahami struktur dan pola kesalahan dalam dataset.
Pada topik ini kita akan membahas praktik data cleaning dan transformasi menggunakan OpenRefine secara bertahap dan detail, mulai dari audit data mentah hingga menghasilkan data yang siap dianalisis.
2. Tujuan Pembelajaran
Setelah mempelajari artikel ini, pembaca diharapkan mampu:
- Memahami peran data cleaning dan data transformation sebagai tahapan fundamental dalam proses analisis data, serta dampaknya terhadap kualitas insight dan pengambilan keputusan.
- Menjelaskan konsep data cleaning berbasis investigasi yaitu memandang data kotor bukan hanya sebagai kesalahan teknis, tetapi sebagai indikasi masalah struktural dalam proses pengumpulan data.
- Mengenal dan memahami fungsi utama OpenRefine termasuk konsep project, facet, clustering, transformasi, dan history sebagai dokumentasi proses pembersihan data.
- Melakukan proses audit data awal menggunakan OpenRefine dengan memanfaatkan Text Facet, Numeric Facet, dan Timeline Facet untuk mengidentifikasi inkonsistensi, duplikasi semu, dan anomali data.
- Menerapkan teknik data cleaning secara sistematis meliputi standardisasi teks, penggabungan nilai serupa menggunakan clustering, serta penanganan nilai kosong (missing values) berdasarkan konteks data.
- Melakukan data transformation menggunakan General Refine Expression Language (GREL) untuk mengubah struktur data agar konsisten, terstandar, dan siap digunakan pada tahap analisis lanjutan.
- Melakukan validasi akhir dataset hasil cleaning guna memastikan integritas data tetap terjaga dan tidak terjadi kehilangan atau perubahan makna informasi.
- Mengekspor data yang telah dibersihkan dan ditransformasikan ke format yang sesuai untuk digunakan dalam database SQL, analisis statistik, maupun visualisasi data.
- Mengembangkan sikap kritis dan etis dalam pengolahan data dengan menyadari bahwa kesalahan pada tahap data cleaning dapat berdampak langsung pada kesimpulan dan keputusan yang diambil.
3. Persiapan Tools
Sebelum melakukan proses data cleaning dan data transformation menggunakan OpenRefine, terdapat beberapa tools yang perlu dipersiapkan. Tahap persiapan ini penting untuk meminimalkan kendala teknis selama proses pengolahan data.
3.1 Mengunduh dan Menginstal OpenRefine
OpenRefine merupakan tools utama yang akan kita gunakan disini. Aplikasi ini bersifat open-source dan gratis, serta tidak memerlukan koneksi internet untuk proses data cleaning.
Langkah pertama adalah mengunduh OpenRefine melalui situs resminya disini
- Pilih versi sesuai sistem operasi:
- Windows (
.zip) - macOS (
.dmg) - Linux (
.tar.gz)
- Windows (
- Unduh file instalasi
Setelah proses unduhan selesai:
- Windows: ekstrak file
.zip, lalu jalankanopenrefine.exe - macOS: buka file
.dmg, lalu seret OpenRefine ke folder Applications - Linux: ekstrak file dan jalankan skrip
refine
OpenRefine tidak perlu koneksi internet dan tidak menginstal database eksternal, karena berjalan secara lokal menggunakan browser.
3.2 Dataset Mentah (Raw Data)
Dataset ini akan menjadi objek utama dalam proses audit, cleaning, dan transformasi. Dataset mentah yang akan digunakan sebaiknya memiliki karakteristik berikut:
- Berasal dari input manual atau sistem tanpa validasi ketat
- Mengandung potensi masalah seperti:
- Inkonsistensi penulisan
- Nilai kosong
- Duplikasi data
- Perbedaan format tanggal atau teks
Format dataset yang didukung OpenRefine antara lain:
- CSV (
.csv) - Excel (
.xlsx) - TSV (
.tsv)
3.3 Editor Teks atau Spreadsheet (Opsional)
Spreadsheet seperti Microsoft Excel atau Google Sheets dapat digunakan hanya untuk melihat struktur awal data, bukan untuk melakukan cleaning utama.
Tujuannya:
- Mengetahui jumlah kolom dan baris
- Memastikan baris pertama berisi nama kolom
- Memeriksa delimiter pada file CSV
Disarankan untuk tidak melakukan pembersihan data secara manual di spreadsheet, agar seluruh proses cleaning terdokumentasi di OpenRefine.
4. Menjalankan OpenRefine dan Mengenal Tampilan Antarmuka
Saat OpenRefine dijalankan, browser akan otomatis terbuka pada alamat lokal (biasanya http://127.0.0.1:3333)
Tampilan awal akan menunjukkan halaman Create Project :

Pada tahap ini, OpenRefine berfungsi sebagai aplikasi desktop berbasis web, sehingga aman digunakan tanpa mengunggah data ke server luar.
- Klik Create Project
- Pilih sumber data:
- This Computer (CSV, Excel, TSV)
- Google Sheets (opsional)
- Pilih file dataset mentah
- Klik Next
4.1 Project Setup di OpenRefine
Pada halaman preview data:

- Pastikan opsi “Parse next X lines as column headers” dicentang
- Periksa store blank rows dan columns dicentang
- Pastikan encoding (umum nya UTF-8)
- Atur sesuai kebutuhan
Jika preview sudah benar, silahkan klik tombol Create Project.
4.2 Memahami Struktur Project OpenRefine

Pada halaman project, perhatikan beberapa bagian utama :
1. Panel Kiri – Facet / Filter

Digunakan untuk:
- Menyaring data
- Mendeteksi nilai tidak konsisten
- Analisis kualitas data
2. Panel Tengah – Tabel Data

Menampilkan:
- Jumlah total baris atau rows
- Isi dataset
- Kolom-kolom data
3. Panel Atas

- Undo / Redo → riwayat transformasi
- Export → output data bersih
5. Praktik Data Cleaning & Transformasi Menggunakan OpenRefine
(Studi Kasus Dataset: Data Pelanggan / Customer)
5.1 Konteks Studi Kasus
Dataset mentah customer.txt berisi data pelanggan dengan atribut :
idNameaddressGenderphoneemailDOB(Date of Birth)

Dari data mentah tersebut ditemukan beberapa permasalahan kualitas data, seperti:
- Format alamat tidak konsisten
- Nomor telepon dengan variasi format
- Email kosong / tidak konsisten
- Kolom DOB masih berupa string
- Pemisah kolom tidak rapi
- Header data ikut terbaca sebagai baris data
5.2 Tahap Awal Data Cleaning (Validasi Data)

1. Memisahkan Kolom
Terlihat bahwa data masih terbaca menjadi 1 kolom dan masih terlihat sangat berantakan. Untuk langkah awal kita harus memisahkan kolom tersebut menjadi beberapa bagian.
- Klik dropdown kolom utama (kolom disamping All)
- Edit column
- Pilih Split into several columns

Setelah itu akan muncul menu split column seperti gambar diatas
- Ketik | pada separator
- Centang Guess cell type dan Remove this column
2. Menghapus Kolom

Kolom sudah terpisah menjadi beberapa bagian, tetapi terlihat masih terdapat kolom yang tidak diperlukan dan tidak memiliki nama kolom. Hapus kolom yang tidak diperlukan tersebut dengan :
klik dropdown pada kolom tersebut → edit column → remove this column

Ulangi langkah ini jika masih terdapat kolom yang tidak akan digunakan.
3. Merubah Nama Kolom

Terlihat bahwa nama kolom masih terbaca sebagai +-----+----
Ubah nama kolom dengan klik dropdown kolom tersebut, Edit column → Rename column
4. Menghapus Baris Header yang Ikut Terbaca
Di baris pertama atau rows 1 masih berisi header
id | Name | address | Gender | phone | email | DOB
- Klik dropdown di kolom
id - Pilih Facet → Text facet
- Pilih nilai
id - Klik Edit rows → Remove matching rows
✅ Header berhasil dihapus dari dataset.
Lakukan hal yang sama untuk baris yang kosong atau blank rows
5.3 Normalisasi Nomor Telepon
Masalah:
Format nomor telepon tidak seragam:
(+62) 976 8680 70430984 8194 36620277 7636 0163
Tujuan:
- Menghapus spasi
- Menghapus tanda kurung
- Menstandarkan format numerik
Langkah:
- Klik dropdown kolom phone
- Pilih Edit cells → Transform
- Gunakan GREL berikut :
if(
value == null,
null,
if(
value.replace(/\D/, "").startsWith("62"),
"+" + value.replace(/\D/, ""),
if(
value.replace(/\D/, "").startsWith("0"),
"+62" + value.replace(/\D/, "").substring(1),
"+62" + value.replace(/\D/, "")
)
)
)
Klik OK dan nomor telepon akan menjadi lebih rapi dan siap diproses lanjut

5.4 Transformasi Kolom DOB ke Format Date
Format kolom DOB atau Date Of Birth tercatat sebagai (tanggal) – (waktu) dengan tidak rapi. Ubah format kolom tersebut dengan hanya mencatat tanggal
Langkah:
- Klik dropdown kolom DOB
- Pilih Edit cells → Common Transform
- Pilih format to date
Setelah itu
- Klik dropdown kembali
- pilih edit cells
- Transform → gunakan GREL
value.toString().substring(0,10)

5.5 Export Data Bersih
Setelah proses cleaning & transform selesai:
- Klik Export
- Pilih format:
- CSV
- Excel
- TSV
6. Kesimpulan
Data cleaning dan data transformation merupakan tahap krusial dalam proses analisis data yang sering kali menentukan kualitas hasil analisis selanjutnya. Melalui studi kasus pengolahan dataset pelanggan menggunakan OpenRefine, dapat disimpulkan bahwa permasalahan data mentah tidak hanya berkaitan dengan data yang hilang, tetapi juga mencakup inkonsistensi format, struktur data yang tidak rapi, serta ketidaksesuaian tipe data.
OpenRefine terbukti menjadi alat yang sangat efektif untuk menangani permasalahan tersebut, terutama pada dataset berukuran kecil hingga menengah. Dengan pendekatan berbasis antarmuka visual dan transformasi berbasis ekspresi (GREL), pengguna dapat melakukan pembersihan dan transformasi data secara sistematis tanpa harus menulis kode pemrograman yang kompleks. Proses seperti menghapus baris yang tidak relevan, menstandarkan nilai kategorikal, merapikan format nomor telepon, mengelola nilai kosong, hingga mengonversi tipe data tanggal dapat dilakukan dengan cepat dan terkontrol.
Selain itu, fitur undo/redo pada OpenRefine memberikan keunggulan dalam proses eksplorasi data, karena setiap langkah transformasi dapat ditelusuri dan diperbaiki tanpa risiko merusak data asli. Hal ini menjadikan OpenRefine sangat sesuai digunakan dalam konteks pembelajaran, praktikum analisis data, maupun tahap awal pipeline data pada proyek nyata.
Dengan data yang telah dibersihkan dan ditransformasikan secara konsisten, dataset pelanggan menjadi lebih siap untuk digunakan pada tahap analisis lanjutan, seperti pemrosesan menggunakan SQL, Python, atau visualisasi data dengan business intelligence tools. Oleh karena itu, OpenRefine dapat diposisikan sebagai jembatan penting antara data mentah dan data siap analisis, sekaligus meningkatkan akurasi, efisiensi, dan kredibilitas hasil analisis data secara keseluruhan.