Main Logo
  • Home
  • About
  • Kursus
    • Paket Kursus
    • Roadmap Profesi
  • Elearning
  • Blog
Daftar
Main Logo
  • Home
  • About
  • Kursus
    • Paket Kursus
    • Roadmap Profesi
  • Elearning
  • Blog

Memahami Data Cleaning dan Transformasi Menggunakan OpenRefine

  • January 19, 2026
  • oleh Edusoft Center
DAFTAR ISI
  • 1. Pendahuluan
  • 2. Tujuan Pembelajaran
  • 3. Persiapan Tools
    • 3.1 Mengunduh dan Menginstal OpenRefine
    • 3.2 Dataset Mentah (Raw Data)
    • 3.3 Editor Teks atau Spreadsheet (Opsional)
  • 4. Menjalankan OpenRefine dan Mengenal Tampilan Antarmuka
    • 4.1 Project Setup di OpenRefine
    • 4.2 Memahami Struktur Project OpenRefine
      • 1. Panel Kiri – Facet / Filter
      • 2. Panel Tengah – Tabel Data
      • 3. Panel Atas
  • 5. Praktik Data Cleaning & Transformasi Menggunakan OpenRefine
    • 5.1 Konteks Studi Kasus
    • 5.2 Tahap Awal Data Cleaning (Validasi Data)
      • 1. Memisahkan Kolom
      • 2. Menghapus Kolom
      • 3. Merubah Nama Kolom
      • 4. Menghapus Baris Header yang Ikut Terbaca
    • 5.3 Normalisasi Nomor Telepon
    • 5.4 Transformasi Kolom DOB ke Format Date
    • 5.5 Export Data Bersih
  • 6. Kesimpulan

1. Pendahuluan

Dalam banyak proyek analisis data, fokus sering kali langsung tertuju pada pembuatan visualisasi atau penerapan model analitik. Padahal, kualitas hasil analisis sangat ditentukan oleh satu tahap krusial yang sering dianggap remeh, yaitu data cleaning dan data transformation. Data yang tampak lengkap belum tentu valid, dan data yang terlihat rapi belum tentu konsisten.

Kesalahan penulisan, perbedaan format, hingga duplikasi semu adalah bentuk “penyakit” umum pada data yang dikumpulkan dari proses manual atau sistem tanpa validasi ketat. Jika tidak ditangani, masalah ini dapat menghasilkan insight yang bias atau bahkan keliru. Di sinilah OpenRefine berperan bukan hanya sebagai alat pembersih data, tetapi sebagai alat investigasi data yang membantu analis memahami struktur dan pola kesalahan dalam dataset.

Pada topik ini kita akan membahas praktik data cleaning dan transformasi menggunakan OpenRefine secara bertahap dan detail, mulai dari audit data mentah hingga menghasilkan data yang siap dianalisis.

2. Tujuan Pembelajaran

Setelah mempelajari artikel ini, pembaca diharapkan mampu:

  1. Memahami peran data cleaning dan data transformation sebagai tahapan fundamental dalam proses analisis data, serta dampaknya terhadap kualitas insight dan pengambilan keputusan.
  2. Menjelaskan konsep data cleaning berbasis investigasi yaitu memandang data kotor bukan hanya sebagai kesalahan teknis, tetapi sebagai indikasi masalah struktural dalam proses pengumpulan data.
  3. Mengenal dan memahami fungsi utama OpenRefine termasuk konsep project, facet, clustering, transformasi, dan history sebagai dokumentasi proses pembersihan data.
  4. Melakukan proses audit data awal menggunakan OpenRefine dengan memanfaatkan Text Facet, Numeric Facet, dan Timeline Facet untuk mengidentifikasi inkonsistensi, duplikasi semu, dan anomali data.
  5. Menerapkan teknik data cleaning secara sistematis meliputi standardisasi teks, penggabungan nilai serupa menggunakan clustering, serta penanganan nilai kosong (missing values) berdasarkan konteks data.
  6. Melakukan data transformation menggunakan General Refine Expression Language (GREL) untuk mengubah struktur data agar konsisten, terstandar, dan siap digunakan pada tahap analisis lanjutan.
  7. Melakukan validasi akhir dataset hasil cleaning guna memastikan integritas data tetap terjaga dan tidak terjadi kehilangan atau perubahan makna informasi.
  8. Mengekspor data yang telah dibersihkan dan ditransformasikan ke format yang sesuai untuk digunakan dalam database SQL, analisis statistik, maupun visualisasi data.
  9. Mengembangkan sikap kritis dan etis dalam pengolahan data dengan menyadari bahwa kesalahan pada tahap data cleaning dapat berdampak langsung pada kesimpulan dan keputusan yang diambil.

3. Persiapan Tools

Sebelum melakukan proses data cleaning dan data transformation menggunakan OpenRefine, terdapat beberapa tools yang perlu dipersiapkan. Tahap persiapan ini penting untuk meminimalkan kendala teknis selama proses pengolahan data.

3.1 Mengunduh dan Menginstal OpenRefine

OpenRefine merupakan tools utama yang akan kita gunakan disini. Aplikasi ini bersifat open-source dan gratis, serta tidak memerlukan koneksi internet untuk proses data cleaning.

Langkah pertama adalah mengunduh OpenRefine melalui situs resminya disini

  1. Pilih versi sesuai sistem operasi:
    • Windows (.zip)
    • macOS (.dmg)
    • Linux (.tar.gz)
  2. Unduh file instalasi

Setelah proses unduhan selesai:

  • Windows: ekstrak file .zip, lalu jalankan openrefine.exe
  • macOS: buka file .dmg, lalu seret OpenRefine ke folder Applications
  • Linux: ekstrak file dan jalankan skrip refine

OpenRefine tidak perlu koneksi internet dan tidak menginstal database eksternal, karena berjalan secara lokal menggunakan browser.

3.2 Dataset Mentah (Raw Data)

Dataset ini akan menjadi objek utama dalam proses audit, cleaning, dan transformasi. Dataset mentah yang akan digunakan sebaiknya memiliki karakteristik berikut:

  • Berasal dari input manual atau sistem tanpa validasi ketat
  • Mengandung potensi masalah seperti:
    • Inkonsistensi penulisan
    • Nilai kosong
    • Duplikasi data
    • Perbedaan format tanggal atau teks

Format dataset yang didukung OpenRefine antara lain:

  • CSV (.csv)
  • Excel (.xlsx)
  • TSV (.tsv)

3.3 Editor Teks atau Spreadsheet (Opsional)

Spreadsheet seperti Microsoft Excel atau Google Sheets dapat digunakan hanya untuk melihat struktur awal data, bukan untuk melakukan cleaning utama.

Tujuannya:

  • Mengetahui jumlah kolom dan baris
  • Memastikan baris pertama berisi nama kolom
  • Memeriksa delimiter pada file CSV

Disarankan untuk tidak melakukan pembersihan data secara manual di spreadsheet, agar seluruh proses cleaning terdokumentasi di OpenRefine.

4. Menjalankan OpenRefine dan Mengenal Tampilan Antarmuka

Saat OpenRefine dijalankan, browser akan otomatis terbuka pada alamat lokal (biasanya http://127.0.0.1:3333)

Tampilan awal akan menunjukkan halaman Create Project :

Pada tahap ini, OpenRefine berfungsi sebagai aplikasi desktop berbasis web, sehingga aman digunakan tanpa mengunggah data ke server luar.

  1. Klik Create Project
  2. Pilih sumber data:
    • This Computer (CSV, Excel, TSV)
    • Google Sheets (opsional)
  3. Pilih file dataset mentah
  4. Klik Next

4.1 Project Setup di OpenRefine

Pada halaman preview data:

  • Pastikan opsi “Parse next X lines as column headers” dicentang
  • Periksa store blank rows dan columns dicentang
  • Pastikan encoding (umum nya UTF-8)
  • Atur sesuai kebutuhan

Jika preview sudah benar, silahkan klik tombol Create Project.

4.2 Memahami Struktur Project OpenRefine

Pada halaman project, perhatikan beberapa bagian utama :

1. Panel Kiri – Facet / Filter

Digunakan untuk:

  • Menyaring data
  • Mendeteksi nilai tidak konsisten
  • Analisis kualitas data

2. Panel Tengah – Tabel Data

Menampilkan:

  • Jumlah total baris atau rows
  • Isi dataset
  • Kolom-kolom data

3. Panel Atas

  • Undo / Redo → riwayat transformasi
  • Export → output data bersih

5. Praktik Data Cleaning & Transformasi Menggunakan OpenRefine

(Studi Kasus Dataset: Data Pelanggan / Customer)

5.1 Konteks Studi Kasus

Dataset mentah customer.txt berisi data pelanggan dengan atribut :

  • id
  • Name
  • address
  • Gender
  • phone
  • email
  • DOB (Date of Birth)
note : semua data ini bersifat tidak nyata (hanya dummy data)

Dari data mentah tersebut ditemukan beberapa permasalahan kualitas data, seperti:

  • Format alamat tidak konsisten
  • Nomor telepon dengan variasi format
  • Email kosong / tidak konsisten
  • Kolom DOB masih berupa string
  • Pemisah kolom tidak rapi
  • Header data ikut terbaca sebagai baris data

5.2 Tahap Awal Data Cleaning (Validasi Data)

1. Memisahkan Kolom

Terlihat bahwa data masih terbaca menjadi 1 kolom dan masih terlihat sangat berantakan. Untuk langkah awal kita harus memisahkan kolom tersebut menjadi beberapa bagian.

  1. Klik dropdown kolom utama (kolom disamping All)
  2. Edit column
  3. Pilih Split into several columns

Setelah itu akan muncul menu split column seperti gambar diatas

  1. Ketik | pada separator
  2. Centang Guess cell type dan Remove this column

2. Menghapus Kolom

Kolom sudah terpisah menjadi beberapa bagian, tetapi terlihat masih terdapat kolom yang tidak diperlukan dan tidak memiliki nama kolom. Hapus kolom yang tidak diperlukan tersebut dengan :

klik dropdown pada kolom tersebut → edit column → remove this column

Ulangi langkah ini jika masih terdapat kolom yang tidak akan digunakan.

3. Merubah Nama Kolom

Terlihat bahwa nama kolom masih terbaca sebagai +-----+----

Ubah nama kolom dengan klik dropdown kolom tersebut, Edit column → Rename column

4. Menghapus Baris Header yang Ikut Terbaca

Di baris pertama atau rows 1 masih berisi header

id | Name | address | Gender | phone | email | DOB
  1. Klik dropdown di kolom id
  2. Pilih Facet → Text facet
  3. Pilih nilai id
  4. Klik Edit rows → Remove matching rows

✅ Header berhasil dihapus dari dataset.

Lakukan hal yang sama untuk baris yang kosong atau blank rows

5.3 Normalisasi Nomor Telepon

Masalah:
Format nomor telepon tidak seragam:

  • (+62) 976 8680 7043
  • 0984 8194 3662
  • 0277 7636 0163

Tujuan:

  • Menghapus spasi
  • Menghapus tanda kurung
  • Menstandarkan format numerik

Langkah:

  1. Klik dropdown kolom phone
  2. Pilih Edit cells → Transform
  3. Gunakan GREL berikut :
if(
  value == null,
  null,
  if(
    value.replace(/\D/, "").startsWith("62"),
    "+" + value.replace(/\D/, ""),
    if(
      value.replace(/\D/, "").startsWith("0"),
      "+62" + value.replace(/\D/, "").substring(1),
      "+62" + value.replace(/\D/, "")
    )
  )
)

Klik OK dan nomor telepon akan menjadi lebih rapi dan siap diproses lanjut

5.4 Transformasi Kolom DOB ke Format Date

Format kolom DOB atau Date Of Birth tercatat sebagai (tanggal) – (waktu) dengan tidak rapi. Ubah format kolom tersebut dengan hanya mencatat tanggal

Langkah:

  1. Klik dropdown kolom DOB
  2. Pilih Edit cells → Common Transform
  3. Pilih format to date

Setelah itu

  1. Klik dropdown kembali
  2. pilih edit cells
  3. Transform → gunakan GREL
value.toString().substring(0,10)

5.5 Export Data Bersih

Setelah proses cleaning & transform selesai:

  1. Klik Export
  2. Pilih format:
    • CSV
    • Excel
    • TSV

6. Kesimpulan

Data cleaning dan data transformation merupakan tahap krusial dalam proses analisis data yang sering kali menentukan kualitas hasil analisis selanjutnya. Melalui studi kasus pengolahan dataset pelanggan menggunakan OpenRefine, dapat disimpulkan bahwa permasalahan data mentah tidak hanya berkaitan dengan data yang hilang, tetapi juga mencakup inkonsistensi format, struktur data yang tidak rapi, serta ketidaksesuaian tipe data.

OpenRefine terbukti menjadi alat yang sangat efektif untuk menangani permasalahan tersebut, terutama pada dataset berukuran kecil hingga menengah. Dengan pendekatan berbasis antarmuka visual dan transformasi berbasis ekspresi (GREL), pengguna dapat melakukan pembersihan dan transformasi data secara sistematis tanpa harus menulis kode pemrograman yang kompleks. Proses seperti menghapus baris yang tidak relevan, menstandarkan nilai kategorikal, merapikan format nomor telepon, mengelola nilai kosong, hingga mengonversi tipe data tanggal dapat dilakukan dengan cepat dan terkontrol.

Selain itu, fitur undo/redo pada OpenRefine memberikan keunggulan dalam proses eksplorasi data, karena setiap langkah transformasi dapat ditelusuri dan diperbaiki tanpa risiko merusak data asli. Hal ini menjadikan OpenRefine sangat sesuai digunakan dalam konteks pembelajaran, praktikum analisis data, maupun tahap awal pipeline data pada proyek nyata.

Dengan data yang telah dibersihkan dan ditransformasikan secara konsisten, dataset pelanggan menjadi lebih siap untuk digunakan pada tahap analisis lanjutan, seperti pemrosesan menggunakan SQL, Python, atau visualisasi data dengan business intelligence tools. Oleh karena itu, OpenRefine dapat diposisikan sebagai jembatan penting antara data mentah dan data siap analisis, sekaligus meningkatkan akurasi, efisiensi, dan kredibilitas hasil analisis data secara keseluruhan.

Tags: analisisdataBasis Databelajar data analystbelajar databasecleaningdatadasar analisis datadata analysisdata analyst pemuladatasetedusoft centeredusoft center solokursuskomputerdisolokursuskomputerdisurakartaOpenrefinetransformdata
Previous Post
Next Post

Post comment

Cancel reply

Your email address will not be published. Required fields are marked *

Recent Posts

  • Dari Data Transaksi ke Keputusan Bisnis: Analisis Lengkap Retail Store Sales
  • Membangun Dashboard Data Analyst dengan Excel dan Visualisasi Grafik
  • Membangun Aplikasi Input Data dengan Google Apps Script yang Terhubung ke Spreadsheet
  • Praktik Analisis Data Cuaca Menggunakan Python di Google Colab untuk Pemula
  • Cara Membuat Website Instan Menggunakan Antigravity (Panduan Lengkap + Praktik)

Arsip

  • March 2026
  • February 2026
  • January 2026
  • September 2025
  • August 2025
  • July 2025
  • March 2019
  • February 2019
  • January 2019
  • December 2018
  • November 2018
  • October 2018
  • September 2018
  • August 2018
  • July 2018
  • June 2018
  • May 2018
  • April 2018
  • March 2018
  • February 2018
  • January 2018
  • December 2017
  • November 2017
  • October 2017
  • September 2017
  • August 2017
  • July 2017
  • June 2017
  • May 2017
  • April 2017
  • March 2017
  • February 2017
  • January 2017
  • December 2016
  • November 2016
  • October 2016
  • September 2016
  • August 2016
  • July 2016
  • June 2016
  • May 2016
  • April 2016
  • March 2016
  • February 2016
  • January 2016
  • December 2015
  • November 2015
  • October 2015
  • September 2015
  • August 2015
  • July 2015
  • June 2015
  • May 2015
  • April 2015
  • March 2015
  • February 2015
  • January 2015
  • December 2014
  • November 2014
  • October 2014
  • September 2014
  • August 2014
  • July 2014
  • June 2014
  • May 2014
  • April 2014
  • March 2014
  • February 2014
  • January 2014
  • December 2013
  • November 2013
  • October 2013
  • September 2013
  • August 2013
  • July 2013
  • June 2013
  • May 2013
  • April 2013
  • March 2013
  • February 2013
  • January 2013
  • December 2012
  • November 2012
  • October 2012
  • September 2012
  • August 2012
  • July 2012
  • June 2012
  • May 2012
  • April 2012
  • December 2011
  • November 2011

Tags

#EdusoftCenter apache web server dns server kursus android kursus database kursus dns dan web server kursus dns server kursus ethical hacking kursus hacking kursus jaringan kursus jaringan linux Kursus Komputer kursus komputer di solo kursus komputer di solo / surakarta kursus komputer di surakarta kursus linux Kursus Linux Forensics kursus linux networking kursus linux security kursus linux server kursus mikrotik kursus networking kursus network security kursus php Kursus PHP dan MySQL kursus php mysql kursus proxy kursus security kursus ubuntu kursus ubuntu server kursus web kursus web security kursus web server kursus wordpress kursus wordpress theme linux MySQL pelatihan komputer di solo PHP security training komputer training komputer di solo tutorial php ubuntu wordpress

© Edusoft Center - Kursus Komputer di Solo | 2010 - 2025 | Privacy Policy | Site Map

All Right Reserved

WhatsApp us