Data Preparation - Pengertian, Alasan dan Langkah-Langkah yang Dilakukan

Pengertian data preparation

Data Preparation atau bisa disebut juga dengan data preprocessing adalah suatu proses/langkah yang dilakukan untuk membuat data mentah menjadi data yang berkualitas(input yang baik untuk data mining tools).



Mengapa data perlu di-preprocessing?

Karena dalam data mentah masih terdapat data yang :
  1. incomplete, yaitu data yang kekurangan nilai atribut atau hanya mengandung agregat data (contoh : address = " ").
  2. noisy, yaitu data yang masih mengandung error dan outliers (contoh : salary = -10).
  3. inconsistent, yaitu data yang mengandung discrepansi dalam code dan nama atau singkatnya datanya tidak konsisten (contoh : dulu rating = 1,2,3 sekarang a,b,c).

Mengapa harus dilakukan data preparation?

  1. Jika data masukan tidak berkualitas, maka hasil data mining juga tidak akan berkualitas.
  2. Keputusan yang berkualitas pasti berasal/berdasarkan data yang berkualitas.
  3. Data Warehouse membutuhkan integrasi yang konsisten dari data yang berkualitas.
  4. Jangan sampai terjadi Garbage In Garbage Out.

Dalam data mining terdapat banyak tool pemodelan. Setiap tool memiliki kelebihan dan kekurangan masing-masing. Tool bisa saja sensitif terhadap tipe data, noise, dan missing value. Jadi suatu data bisa dikatakan berkualitas atau tidak tergantung nantinya mau dimodelkan dengan tool yang mana. Suatu data bisa dikatakan berkualitas untuk suatu tool, tapi belum tentu berkualitas untuk tool yang lain.

Langkah-Langkah dalam data preparation :

1. Data Cleaning

Dalam data cleaning yang akan kita lakukan antara lain mengisi missing value, mengidentifikasi outlier, menangani data noise, mengoreksi data yang tidak konsisten, dan menyelesaikan masalah redudansi data akibat integrasi data.

2. Data Integration

Data integration adalah suatu langkah untuk menggabungkan data dari beberapa sumber. Data integration hanya dilakukan jika data berasal dari tempat yang berbeda-beda (sumber data tidak hanya dari 1 tempat). Langkah yang dilakukan antara lain mengintegrasikan skema, mengidentifikasi masalah entitas, dan mendeteksi sekaligus menyelesaikan konflik pada nilai data.

3. Data Transformation

Data transformation yaitu mengubah suatu data supaya diperoleh data yang lebih berkualitas. Yang akan dilakukan antara lain menghilangkan noise dari data (smoothing), meng-agregasi data, generalisasi data, normalisasi data, dan pembentukan atribut/fitur.

4. Data Reduction

Data Reduction yaitu langkah untuk mereduksi dimensi, atribut ataupun jumlah data. Yang akan dilakukan antara lain agregasi data cube, reduksi dimensi, diskretisasi, dan kompresi data.

Sekian semoga bermanfaat...

3 comments:

Obat Jerawat mengatakan...

postingan ini sangat menarik serta enak dibaca.... saya berharap bisa berkunjung lagi

Audri Wafi Rabbani mengatakan...

Cukup bagus info yang diberikan

Febrinto mengatakan...

Sangat bermanfaat menambah pengetahuan

Posting Komentar