Pendahuluan
Di era bisnis yang semakin kompetitif, keputusan yang diambil berdasarkan intuisi semata sudah tidak cukup. Perusahaan-perusahaan yang bertahan dan berkembang adalah mereka yang mampu membaca data, memahami polanya, dan menggunakannya sebagai dasar pengambilan keputusan. Namun kenyataannya, banyak perusahaan yang sudah memiliki data berlimpah tetapi belum tahu cara memaksimalkannya.
Artikel ini mendokumentasikan secara teknis seluruh proses analisis data penjualan sebuah perusahaan retail — mulai dari pemahaman dataset, pembersihan data, eksplorasi mendalam, hingga perumusan insight dan rekomendasi bisnis yang konkret. Dataset yang digunakan adalah Retail Store Sales yang mencatat 12.575 transaksi penjualan dengan 11 variabel.
Tujuan artikel ini bukan hanya untuk menampilkan hasil analisis, tetapi juga untuk mendemonstrasikan cara berpikir seorang data analyst secara terstruktur — bagaimana mengajukan pertanyaan bisnis yang tepat, memilih metode analisis yang sesuai, menginterpretasikan temuan secara kritis, dan mengkomunikasikan insight kepada pemangku kepentingan yang tidak berlatar belakang teknis.
Background Masalah
Bayangkan kamu adalah Junior Data Analyst baru di sebuah perusahaan retail. Di hari pertama kerja, manajer kamu datang dan berkata: “Kami punya banyak data transaksi, tapi kami tidak tahu harus mulai dari mana. Tolong analisis dan ceritakan kondisi bisnis kita.”
Itulah skenario yang melatarbelakangi proyek analisis ini. Perusahaan memiliki dua channel penjualan (Online dan In-store), delapan kategori produk, dan ratusan item — namun tidak memiliki gambaran yang jelas tentang mana yang benar-benar menguntungkan dan mana yang perlu perhatian.
Dari diskusi awal dengan manajemen, dirumuskan empat pertanyaan bisnis yang ingin dijawab:
Pertanyaan 1: Lokasi mana yang paling menguntungkan — Online atau In-store? Selama ini manajemen hanya melihat total revenue, tanpa membandingkan efisiensi profitnya.
Pertanyaan 2: Kategori produk mana yang paling berisiko? Perusahaan perlu tahu mana yang margin-nya tipis dan rentan terhadap kenaikan biaya atau pemberian diskon berlebihan.
Pertanyaan 3: Apakah kebijakan diskon yang berjalan sudah tepat? Diskon diberikan pada banyak transaksi, namun belum pernah dihitung dampaknya secara kuantitatif terhadap profitabilitas.
Pertanyaan 4: Item produk mana yang perlu segera dievaluasi? Dari 201 item, mana yang bermasalah dari sisi profitabilitas dan perlu tindakan segera?
Keempat pertanyaan inilah yang menjadi landasan seluruh proses analisis.
Dataset yang Digunakan
Gambaran Umum
Dataset Retail Store Sales merupakan kumpulan data transaksi penjualan retail dengan spesifikasi sebagai berikut:
- Jumlah transaksi: 12.575 baris
- Jumlah variabel: 11 kolom
- Periode waktu: Januari 2022 hingga Januari 2025
- Kategori produk: 8 kategori
- Item produk: 201 item unik
- Channel penjualan: Online dan In-store
Penjelasan Variabel
Transaction ID adalah identifikasi unik setiap transaksi dalam format TXN_XXXXXXX. Variabel ini digunakan sebagai primary key untuk memastikan tidak ada transaksi yang terduplikasi.
Customer ID adalah identifikasi pelanggan dalam format CUST_XX. Variabel ini memungkinkan analisis perilaku pelanggan meskipun dalam proyek ini tidak menjadi fokus utama.
Category adalah pengelompokan produk ke dalam delapan kategori: Beverages, Butchers, Computers and Electric Accessories, Electric Household Essentials, Food, Furniture, Milk Products, dan Patisserie. Pembagian ini memungkinkan perbandingan profitabilitas antar kelompok produk yang berbeda karakteristik bisnisnya.
Item adalah nama spesifik produk yang dijual. Dataset memiliki 201 item unik dengan format penamaan seperti Item_1_BEV, Item_2_FUR, dan sebagainya. Terdapat 609 transaksi dengan nama item ‘Unknown’ yang menjadi catatan tersendiri.
Price Per Unit adalah harga satuan produk sebelum diskon. Variabel ini bersama Quantity digunakan untuk memvalidasi nilai Total Spent.
Quantity adalah jumlah unit produk yang dibeli dalam satu transaksi.
Total Spent adalah nilai penjualan per transaksi. Perlu dicatat bahwa nilai ini sudah mencerminkan harga setelah diskon jika diskon diberikan.
Payment Method adalah metode pembayaran yang digunakan oleh pelanggan.
Location adalah channel penjualan — Online atau In-store. Variabel ini menjadi salah satu dimensi analisis utama.
Transaction Date adalah tanggal transaksi dalam format YYYY-MM-DD. Variabel ini digunakan untuk analisis tren penjualan dari waktu ke waktu.
Discount Applied adalah status apakah transaksi mendapat diskon (True) atau tidak (False). Variabel boolean ini dikonversi menjadi nilai numerik untuk keperluan analisis.
Proses Data Cleaning
Data cleaning adalah tahap yang tidak boleh dilewati dalam setiap proyek analisis data. Data yang kotor akan menghasilkan insight yang menyesatkan — prinsip garbage in, garbage out berlaku secara mutlak.
Langkah 1: Pengecekan Missing Value
Langkah pertama adalah memeriksa apakah ada nilai yang kosong di setiap kolom. Setelah dilakukan pengecekan menyeluruh pada seluruh 11 kolom dan 12.575 baris, hasilnya sangat menggembirakan: tidak ditemukan satu pun missing value di seluruh dataset. Setiap transaksi memiliki informasi yang lengkap di semua kolom.
Ini adalah kondisi yang cukup ideal karena dalam praktik nyata, proses membersihkan missing value sering kali memakan waktu yang signifikan — mulai dari mengidentifikasi pola ketidaklengkapan data, memutuskan strategi penanganan (imputasi, penghapusan baris, atau pemberian nilai default), hingga memvalidasi hasilnya.
Langkah 2: Pengecekan Duplikasi Data
Duplikasi data adalah masalah umum yang terjadi ketika data dikumpulkan dari berbagai sumber atau ketika sistem pencatatan mengalami gangguan. Data yang terduplikasi akan membuat angka penjualan dan profit tampak lebih besar dari kenyataan, sehingga keputusan yang diambil berdasarkan data tersebut menjadi tidak akurat.
Setelah pengecekan menggunakan Transaction ID sebagai acuan, tidak ditemukan satu pun baris data yang terduplikasi. Setiap Transaction ID bersifat unik dalam dataset.
Langkah 3: Validasi Tipe Data
Seluruh kolom numerik seperti Price Per Unit, Quantity, dan Total Spent sudah tersimpan dalam format angka yang dapat diproses langsung. Kolom Transaction Date sudah dalam format tanggal yang konsisten. Kolom Discount Applied sudah dalam format boolean (True/False) yang kemudian dikonversi ke nilai numerik untuk analisis.
Langkah 4: Pencatatan Item Unknown
Ditemukan 609 transaksi dengan nama item ‘Unknown’. Ini bukan merupakan data yang salah atau perlu dihapus, melainkan mencerminkan kondisi di mana nama produk tidak berhasil direkam dengan benar oleh sistem kasir atau sistem inventaris.
Temuan ini dicatat sebagai insight tersendiri dan direkomendasikan kepada tim yang bertanggung jawab atas sistem pencatatan untuk segera diperbaiki. Membiarkan 609 transaksi tanpa nama item yang jelas akan mempersulit analisis produk di masa mendatang.
Ringkasan Hasil Data Cleaning
| Pemeriksaan | Hasil | Status |
|---|---|---|
| Missing Value | 0 ditemukan | ✅ Bersih |
| Duplikasi Data | 0 ditemukan | ✅ Bersih |
| Tipe Data | Semua sesuai | ✅ Valid |
| Item Unknown | 609 transaksi | ⚠️ Perlu ditindaklanjuti |
Dataset dinyatakan bersih dan siap untuk tahap analisis selanjutnya.
Exploratory Data Analysis (EDA)
EDA adalah jantung dari setiap proyek analisis data. Di sinilah kita benar-benar “berbicara” dengan data — mengajukan pertanyaan, membuat visualisasi, dan membiarkan data bercerita. Pada tahap ini, pikiran terbuka sangat penting karena temuan yang paling bernilai sering kali datang dari arah yang tidak kita duga.
Analisis 1 — Sales by Location: Online vs In-store

Pertanyaan pertama yang dijawab adalah mana yang lebih menguntungkan: Online atau In-store?
| Lokasi | Total Revenue | Total Profit | Profit Margin | Jumlah Transaksi |
|---|---|---|---|---|
| Online | $791,401 | $279,686 | 35.3% | 6,068 |
| In-store | $760,670 | $269,017 | 35.4% | 5,903 |
Secara absolut, Online memang unggul di revenue ($791,401 vs $760,670) dan profit ($279,686 vs $269,017). Namun temuan yang benar-benar mengejutkan adalah bahwa profit margin keduanya hampir identik — Online 35.3% dan In-store 35.4%, dengan selisih hanya 0.1 poin persentase.
Ini adalah insight yang sangat penting dan tidak akan terlihat jika kita hanya melihat angka penjualan saja. Keunggulan Online semata-mata disebabkan oleh volume transaksi yang lebih tinggi (6,068 vs 5,903 transaksi) — bukan karena efisiensi operasional yang lebih baik atau struktur biaya yang lebih rendah.
Implikasinya: jika volume Online turun karena persaingan atau perubahan perilaku konsumen, tidak ada keunggulan margin yang bisa menjadi bantalan bisnis. Perusahaan perlu memikirkan strategi untuk meningkatkan efisiensi di salah satu atau kedua channel, bukan hanya mengandalkan volume.
Analisis 2 — Profit Margin by Category

Analisis ini menjawab pertanyaan yang paling krusial dari perspektif bisnis: di mana perusahaan benar-benar menghasilkan uang?
| Kategori | Revenue | Profit | Margin |
|---|---|---|---|
| Beverages | $197,048 | $82,760 | 42.0% |
| Furniture | $195,310 | $78,124 | 40.0% |
| Food | $194,812 | $74,029 | 38.0% |
| Electric HH | $203,814 | $75,411 | 37.0% |
| Computers | $190,692 | $66,742 | 35.0% |
| Butchers | $208,118 | $66,598 | 32.0% |
| Milk Products | $180,112 | $54,034 | 30.0% |
| Patisserie | $182,166 | $51,006 | 28.0% |
Beverages adalah kategori terbaik dengan margin 42% dan profit $82,760 — jauh melampaui kategori lainnya. Di sisi lain, Patisserie adalah kategori yang paling mengkhawatirkan dengan margin hanya 28% sekaligus revenue terendah kedua ($182,166).
Yang juga menarik untuk dicermati adalah Butchers yang memiliki revenue tertinggi ($208,118) namun marginnya hanya 32% — di bawah rata-rata. Ini adalah contoh klasik mengapa analisis tidak boleh berhenti di angka revenue saja. Butchers bekerja keras menghasilkan penjualan terbesar, tetapi efisiensinya dalam menghasilkan profit termasuk rendah.
Penyebab rendahnya margin Patisserie dan Milk Products kemungkinan besar adalah biaya operasional yang tinggi — produk yang mudah basi memerlukan pengelolaan stok yang ketat, potensi pemborosan, dan biaya penyimpanan khusus yang secara tidak langsung menggerus margin.
Analisis 3 — Dampak Diskon terhadap Profit

Ini adalah analisis yang paling menimbulkan perdebatan di banyak perusahaan. Diskon sering dianggap sebagai alat yang pasti menguntungkan karena mendorong volume penjualan. Namun apakah benar demikian?
| Kondisi | Profit Margin | Avg Revenue/Transaksi | Jumlah Transaksi |
|---|---|---|---|
| Tanpa Diskon | 35.4% | $129.23 | 7,952 (66.4%) |
| Dengan Diskon | 35.2% | $130.49 | 4,019 (33.6%) |
Secara angka, margin hampir sama. Namun ini karena Total Spent di dataset sudah mencerminkan harga setelah diskon — artinya perusahaan sudah kehilangan revenue di muka dan kita tidak bisa melihat langsung berapa besar potongannya.
Jika diasumsikan diskon rata-rata sebesar 20%, estimasi kehilangan revenue dari 4,019 transaksi yang mendapat diskon adalah sekitar $104,889. Ini adalah uang yang seharusnya bisa masuk ke kas perusahaan sebagai profit tambahan.
Yang lebih mengkhawatirkan lagi adalah fakta bahwa diskon diberikan secara merata tanpa mempertimbangkan margin per kategori. Memberikan diskon pada Beverages (margin 42%) masih relatif aman karena masih ada ruang yang cukup untuk menyerap potongan harga. Namun memberikan diskon pada Patisserie (margin 28%) dengan tingkat yang sama bisa mendorong transaksi tersebut ke zona impas atau bahkan merugi.
Analisis 4 — Item yang Perlu Dievaluasi
Dari 201 item, analisis mengidentifikasi beberapa item yang memerlukan perhatian segera berdasarkan kombinasi margin rendah dan tingkat diskon yang tinggi:
Item_3_EHE adalah yang paling kritis. Tingkat diskonnya mencapai 60% dengan profit total hanya $83. Ini hampir tidak masuk akal secara bisnis — lebih dari separuh transaksinya diberi diskon namun keuntungan yang dihasilkan hampir tidak ada sama sekali.

Item_3_PAT perlu dipantau ketat. Dengan volume 128 unit, diskon 37.5%, dan berasal dari kategori Patisserie yang marginnya sudah tipis (28%), dampak kerugian totalnya cukup besar jika dibiarkan.
Item_1_FOOD sebenarnya tidak perlu didiskon. Volume penjualannya sudah 135 unit — menandakan demand yang cukup kuat. Namun diskon 40.7% diberikan padahal tidak diperlukan. Ini adalah pemberian diskon yang tidak strategis.
Item_1_BUT memiliki volume 185 unit dengan diskon 35.1% dan margin 32%. Demand sudah ada tanpa perlu diskon besar, namun perusahaan tetap memberikan potongan harga yang menggerus margin.
Analisis 5 — Sales Trend
Memahami tren penjualan dari waktu ke waktu penting untuk menilai apakah bisnis sedang tumbuh, stagnan, atau mengalami penurunan.
| Tahun | Total Sales | Pertumbuhan |
|---|---|---|
| 2022 | $540,137 | — |
| 2023 | $514,799 | -4.7% |
| 2024 | $553,792 | +7.6% |
Sales 2024 mencapai titik tertinggi dalam tiga tahun terakhir dengan pertumbuhan +7.6% dari 2023 dan +2.5% dari 2022. Penurunan di 2023 kemungkinan merupakan dampak dari kondisi ekonomi atau persaingan yang meningkat, namun recovery di 2024 menunjukkan resiliensi bisnis yang baik.

Dari analisis bulanan 2024, terlihat pola musiman yang jelas. Penjualan memuncak di Januari ($50,982) dan Desember ($50,662) — kemungkinan terkait dengan musim belanja awal tahun dan akhir tahun. Sebaliknya, Februari mencatat penjualan terendah ($39,927), turun drastis dari Januari. Pola ini bisa dimanfaatkan untuk perencanaan stok dan anggaran promosi yang lebih efisien.
Insight Utama
Setelah menyelesaikan seluruh tahapan EDA, berikut adalah lima insight terpenting yang dihasilkan:
Insight 1 — Online unggul volume, bukan efisiensi. Keunggulan Online semata-mata karena lebih banyak transaksi. Margin keduanya hampir identik (35.3% vs 35.4%), artinya tidak ada keunggulan struktural yang membedakan kedua channel ini secara operasional.
Insight 2 — Patisserie adalah kategori yang paling rentan. Dengan margin 28% terendah dari semua kategori sekaligus revenue terendah kedua, Patisserie tidak memiliki ruang yang cukup untuk menyerap tekanan bisnis apapun — baik kenaikan biaya maupun pemberian diskon.
Insight 3 — Bisnis tumbuh positif di 2024. Sales 2024 tertinggi dalam tiga tahun dengan pertumbuhan +2.5% dari 2022. Ada pola musiman yang bisa dieksploitasi untuk perencanaan yang lebih baik.
Insight 4 — Diskon menguras hampir $105 ribu per tahun. Estimasi $104,889 revenue yang hilang akibat diskon tidak selektif adalah angka yang signifikan. Tanpa perubahan kebijakan, kerugian ini akan terus berulang setiap tahunnya.
Insight 5 — Item_3_EHE adalah anomali yang memerlukan investigasi segera. Diskon 60% dengan profit total hanya $83 bukan sekadar masalah operasional — ini adalah sinyal adanya masalah sistemik dalam kebijakan pemberian diskon perusahaan yang perlu ditangani segera.
Rekomendasi Bisnis
Berdasarkan insight yang telah diidentifikasi, berikut empat rekomendasi bisnis yang dapat langsung ditindaklanjuti:
Rekomendasi 1 — Terapkan Kebijakan Diskon Berbasis Margin
Kebijakan diskon harus mempertimbangkan margin setiap kategori. Panduan yang disarankan: Beverages (42%) boleh diskon maksimal 20%, Food dan Furniture (38-40%) maksimal 15%, Butchers dan Milk Products (30-32%) maksimal 5% hanya untuk clearing stok, dan Patisserie (28%) tidak boleh didiskon sama sekali. Implementasikan sistem approval agar diskon di atas batas tersebut harus mendapat persetujuan manajer.
Rekomendasi 2 — Investigasi dan Tangani Item_3_EHE Segera
Item dengan diskon 60% dan profit $83 memerlukan investigasi mendalam. Pertanyaan yang harus dijawab: mengapa diskon sebesar ini bisa terjadi? Apakah ada kesalahan sistem, keputusan yang salah dari tim penjualan, atau ada alasan lain? Setelah diinvestigasi, pertimbangkan untuk menaikkan harga jual, menghentikan diskon, atau bahkan menghentikan item ini jika tidak dapat diperbaiki.
Rekomendasi 3 — Ubah KPI Tim Penjualan dari Revenue ke Profit Contribution
KPI berbasis revenue atau volume mendorong tim untuk memberikan diskon demi meningkatkan angka penjualan, meskipun margin terkikis. Dengan mengubah KPI menjadi profit contribution, tim akan lebih termotivasi untuk menjual produk bermargin tinggi dan lebih selektif dalam memberikan diskon. Perubahan ini memang memerlukan waktu adaptasi, namun dampaknya terhadap profitabilitas jangka panjang sangat signifikan.
Rekomendasi 4 — Fokuskan Pertumbuhan pada Kategori Beverages
Beverages memiliki kombinasi yang ideal: margin tertinggi (42%), profit terbesar ($82,760), dan demand yang stabil. Alokasikan lebih banyak anggaran promosi untuk mendorong volume di kategori ini — tanpa perlu diskon agresif. Pertumbuhan volume Beverages akan langsung berkontribusi signifikan terhadap total profit perusahaan.
Refleksi Teknis
Menyelesaikan proyek analisis data end-to-end mengajarkan beberapa pelajaran teknis yang berharga:
Pertama, selalu mulai dari pertanyaan bisnis, bukan dari data. Tanpa pertanyaan yang jelas, analisis akan kehilangan arah. Dalam proyek ini, empat pertanyaan bisnis yang dirumuskan di awal menjadi peta jalan yang memandu setiap keputusan analisis.
Kedua, margin lebih penting dari revenue. Ini adalah pelajaran yang berulang kali muncul dalam analisis ini — baik saat membandingkan Online vs In-store, maupun saat mengevaluasi kategori produk dan kebijakan diskon. Revenue yang tinggi tidak berarti bisnis yang sehat jika margin-nya tipis.
Ketiga, insight harus bisa mengejutkan. Jika semua temuan sudah bisa ditebak sebelum analisis, berarti analisis tersebut tidak memberikan nilai tambah. Dalam proyek ini, temuan bahwa margin Online dan In-store hampir identik, atau bahwa diskon tidak terbukti meningkatkan nilai per transaksi, adalah insight yang benar-benar mengejutkan dan bernilai.
Keempat, rekomendasi harus spesifik dan dapat diukur. Mengatakan “perbaiki kebijakan diskon” tidak memberikan petunjuk yang jelas. Mengatakan “Patisserie tidak boleh didiskon sama sekali karena margin 28% tidak memiliki ruang yang cukup” adalah rekomendasi yang spesifik, terukur, dan dapat langsung diimplementasikan.
Kesimpulan
Analisis data Retail Store ini berhasil menjawab keempat pertanyaan bisnis yang diajukan di awal, sekaligus mengungkap beberapa temuan yang tidak terduga namun sangat bernilai bagi bisnis.
Di balik performa keseluruhan yang terlihat sehat — margin 35.3% dan sales tumbuh +2.5% — terdapat beberapa area kritis yang memerlukan perhatian segera. Kebijakan diskon yang tidak selektif menguras hampir $105 ribu revenue per tahun. Patisserie berada di zona bahaya dengan margin hanya 28%. Dan Item_3_EHE adalah anomali yang mengindikasikan masalah sistemik dalam proses pemberian diskon.
Kabar baiknya, semua masalah ini dapat diatasi dengan perubahan kebijakan yang terukur dan berbasis data. Tidak diperlukan investasi besar atau restrukturisasi bisnis yang radikal — cukup dengan menerapkan kebijakan diskon yang lebih selektif, mengubah KPI tim penjualan, dan memfokuskan upaya pertumbuhan pada kategori dengan margin tertinggi.
Dan itulah nilai sebenarnya dari analisis data: bukan hanya untuk melaporkan kondisi bisnis seperti apa adanya, tetapi untuk memberikan peta jalan yang jelas menuju perbaikan yang nyata dan terukur.