Lompat ke konten Lompat ke sidebar Lompat ke footer

Memahami Transformasi Data dalam Data Warehouse

Memahami Transformasi Data dalam Data Warehouse - Data transformation, yaitu proses mengkonversikan data kedalam format lain yang sesuai dengan kebutuhan analisa. Pada tahapan ini akan dilakukan tranformasi data kedalam bentuk, format atau struktur data yang lain yang disesuiakan dengan kebutuhan dari sisi analisa dan visualisasi atas hasil analisa.

ETL (Extract, Transform, Load)

ETL merupakan proses yang sangat penting dalam data warehouse, dengan ETL inilah data dari operational dapat dimasukkan ke dalam data warehouse. ETL juga dapat digunakan untuk mengintegrasikan data dengan sistem yang sudah ada sebelumnya.

Memahami Transformasi Data dalam Data Warehouse_
image source: united.softserveinc.com
baca juga: Karakteristik Data Warehouse dan Contohnya Menurut Para Ahli

Tujuan ETL adalah mengumpulkan, menyaring, mengolah, dan menggabungkan data-data yang relevan dari berbagai sumber untuk disimpan ke dalam data warehouse. Hasil dari proses ETL adalah dihasilkannya data yang memenuhi kriteria data warehouse seperti data yang historis, terpadu, terangkum, statis, dan memiliki struktur yang dirancang untuk keperluan proses analisis.

a. Extract
Langkah pertama pada proses ETL adalah mengekstrak data dari sumber-sumber data. Kebanyakan proyek data warehouse menggabungkan data dari sumber-sumber yang berbeda. Sistem-sistem yang terpisah sangat mungkin menggunakan format data yang berbeda. Ektraksi adalah mengubah data ke dalam suatu format yang berguna untuk proses transformasi.

b. Transform
Tahapan transformasi menggunakan serangkaian aturan atau fungsi untuk mengekstrak data dari sumber dan selanjutnya akan dimasukkan ke data warehouse. Berikut adalah hal-hal yang dapat dilakukan dalam tahapan transformasi:
  • Hanya memilih kolom tertentu saja untuk dimasukkan ke dalam data warehouse.
  • Menterjemahkan nilai-nilai yang berupa kode.
  • Mengkodekan nilai-nilai ke dalam bentuk bebas (Contohnya memetakan “Pria” dengan “P” dan “Wanita” ke dalam “W”).
  • Melakukan perhitungan nilai-nilai baru (Contohnya nilai = qty * harga_satuan).
  • Menggabungkan data secara bersama-sama dari berbagai sumber.
  • Membuat ringkasan dari sekumpulan baris data.
  • Men-generate nilai surrogate key.
  • Transposing atau pivoting (Mengubah sekumpulan kolom menjadi sekumpulan baris atau sebaliknya).
  • Memisahkan sebuah kolom menjadi berbagai kolom.
  • Menggunakan berbagai bentuk validasi data baik yang sederhana maupun kompleks.

c. Load
Fase load merupakan tahapan yang berfungsi untuk memasukkan data ke dalam target akhir, yang biasanya ke dalam suatu data warehouse. Jangka waktu proses ini tergantung pada kebutuhan organisasi. Beberapa data warehouse dapat setiap minggu mengisi keseluruhan informasi yang ada secara kumulatif, data diubah, sementara data warehouse yang lain (atau bagian lain dari data warehouse yang sama) dapat menambahkan data baru dalam suatu bentuk yang historikal, contohnya setiap jam. Waktu dan jangkauan untuk mengganti atau menambah data tergantung dari perancangan data warehouse pada waktu menganalisis keperluan informasi.

Fase load berinteraksi dengan suatu database, constraint didefinisikan dalam skema database sebagai suatu trigger yang diaktifkan pada waktu me-load data (Contohnya uniqueness, referential integrity, mandatory fields), yang juga berkontribusi untuk keseluruhan tampilan dan kualitas data dari proses ETL.

Masalah-masalah yang terjadi dalam ETL adalah sumber-sumber data umumnya sangat bervariasi diantaranya:
  • Platform mesin dan sistem operasi yang berlainan.
  • Mungkin melibatkan sistem kuno dengan teknologi basis data yang sudah ketinggalan zaman.
  • Kualitas data yang berbeda-beda.
  • Aplikasi sumber data mungkin menggunakan nilai data (representasi) internal yang sulit dimengerti.
Gambar 1. Rancangan Arsitektur Data warehouse_
Gambar 1. Rancangan Arsitektur Data warehouse
Gambar 2. ERD Staging Area_
Gambar 2. ERD Staging Area

Menyimpan Pre-kalkulasi dalam Tabel Fakta (Storing pre-calculations in the fact table)

Pre-kalkulasi yang dapat dilakukan untuk kemudian disimpan dalam tabel fakta penjualan yaitu banyak penjualan (jumlahpenjualan) yang merupakan kumpulan dari banyaknya barang dikurangi banyaknya retur (jumlahbarang – jumlahretur).

Selain itu, terdapat pula kalkulasi yang kemudian akan disimpan dalam tabel fakta yaitu :

  • Fakta Penjualan
  • Fakta Persediaan


Fakta Penjualan meliputi :

  • Banyak terapi (jumlahterapi) yang merupakan kumpulan dari banyaknya kdtherapi
  • Banyak barang (jumlahbarang) yang merupakan kumpulan dari banyaknya barang
  •  Pasien yang aktif (pasien_aktif) yang merupakan kumpulan dari banyaknya kdpasien.
  • Banyak retur (jumlahretur) yang merupakan kumpulan dari banyaknya barang yang diretur.
  • Total penjualan (totalpenjualan) merupakan jumlah dari banyak barang dikalikan dengan harga jual
  • masing-masing.
  • Total retur (totalretur) merupakan jumlah dari banyak barang yang diretur dikalikan dengan harga jual masing-masing (sum (qty dikalikan dengan harga jual) ).


Fakta persediaan meliputi :

  • Jumlah barang masuk (jumlahbarangmasuk) yang merupakan kumpulan dari banyaknya pembelian
  • barang ditambah dengan retur penjualan.
  • Jumlah Barang Keluar (jumlahbarangkeluar) yang merupakan kumpulan dari banyaknya penjualan
  • ditambah dengan retur pembelian.
  • Rata-rata lead time (rataleadtime) yang merupakan rata-rata dari leadtime.


Gambar 3. Skema Bintang Penjualan_
Gambar 3. Skema Bintang Penjualan
Gambar 4. Data Integration Across Sources_
Gambar 4. Data Integration Across Sources
Gambar 5. Data Transformation Example_
Gambar 5. Data Transformation Example

Data Transformation Terms
  • Extracting
    • Menangkap data dari berbagai sumber data operasional dalam status “as is”
    • Kebanyakan data untuk saat sekarang merupakan relational databases.
  • Conditioning
    • Konversi tipe data dari sumber data ke target data store (warehouse).
  • Householding
    • Mengidentifikasi semua member household (living at the same address)
    • Memastikan hanya ada satu mail yang dikirim ke household.
    • Penghematan yang substansial
  • Enrichment
    • Membawa/mengambil data dari sumber eksternal untuk memperkaya data.
  • Scoring
    • Perhitungan probabilitas dari suatu kejadian. E.g..., kemungkinan bahwa customer akan memberli produk yang baru.

Sekian artikel Modul Makalah tentang Memahami Transformasi Data dalam Data Warehouse. Semoga bermanfaat.

Daftar Pustaka

  • Connoly, T., & Begg, c. (2005). database system; a practical approach to design, implementation and management (4th ed.). Harlow :Addison wesley
  • Indrajani. (2011). Perancangan Basis Data Dalam All In 1, ISBN 978-979-27-9980-4, Jakarta: Elex Media Computindo
  • Indrajani. (2011).  Bedah Kilat 1 Jam – Pengantar dan Sistem Basis Data, ISBN 978-979-27-9695-7, Jakarta: Elex Media Computindo
  • Inmon, W.H. (2005). Building The Data Warehouse. Third edition. John Wiley & Sons. New York
  • O'Brien, J. (2003). Introduction To Information Systems (11th ed.). New York: Mc Graw Hill
Nikita Dini
Nikita Dini Blogger, Internet Marketer, Web Designer

Posting Komentar untuk "Memahami Transformasi Data dalam Data Warehouse"