Data Warehouse (DW) adalah sebuah sistem repository (tempat penyimpanan), retrive (pengambil) dan consolidate (pengkonsolidasi) kumpulan data secara periodik yang didesain berorientasi subyek, terintegrasi, bervariasi waktu, dan non-volatile, yang mendukung manajemen dalam proses analisa, pelaporan dan pengambilan keputusan.
Data warehouse mengkombinasikan informasi dengan meringkas (summarizing) dan mengelompokkan (aggregation). Informasi yang diperlukan ini didefinisikan oleh persetujuan para pengguna sesuai dengan informasi yang mereka butuhkan dalam pengambilan keputusan. Suatu data warehouse hanya berisi informasi yang relevan dengan kebutuhan user untuk mendukung pengambilan keputusan.
Data warehouse memisahkan beban kerja analisis dari beban kerja transaksi sehingga memungkinkan organisasi untuk menggabungkan dan mengkonsolidasi data dari berbagai sumber. Data warehouse membantu organisasi untuk menganalisa tren berdasarkan data repositori organisasi dengan jangka waktu tertentu. Fungsi utama dari data warehouse adalah untuk memfasilitasi organisasi dalam melakukan perencanaan strategis berdasarkan data jangka panjang yang tersimpan dan membuat keputusan yang baik dan cepat.
Berikut definisi dan pengertian data warehouse dari beberapa sumber buku:
Data warehouse memiliki ciri subject oriented yang berarti dalam desain sistem untuk menganalisis didasari oleh subjek-subjek tertentu yang berkaitan dengan organisasi. Misalnya untuk organisasi asuransi subjek yang terkait dan dalam skala mayor adalah pelanggan, kebijakan, dan klaim. Untuk penjualan, subjek yang berskala mayor contohnya adalah transaksi penjualan, produk, toko atau cabang.
Dalam sistem data warehouse sangat memungkinkan untuk mendapatkan sumber database operasional dari luar (external source). Dari kejadian ini menimbulkan kemungkinan adanya perbedaan satuan antara database operasional (internal source) dengan database-database dari luar. Maka dari itu dilakukanlah sebuah integrasi pada satuan bilangan tertentu. Misalnya jika di internal memiliki satuan ukur panjang dengan satuan cm, sedangkan di external source menggunakan mm, maka bisa di pilih salah satu satuan yang menjadi patokan sehingga semua satuan terintegrasi menjadi satu dan sama.
Elemen waktu pada data warehouse harus jelas untuk menjaga kevalidan data pada rentang waktu tertentu karena record data pada data warehouse rentang waktunya lebih besar daripada database operasional demi kepentingan analisis data secara periodik.
Data yang ada pada data warehouse tidak dapat diperbaharui atau di update, tetapi hanya dapat di refresh dari data operasional atau sumber data berdasarkan waktu yang telah ditentukan. Data yang baru selalu ditambahkan sebagai suplemen bagi database itu sendiri dari pada sebagai sebuah perubahan. Database tersebut secara kontinyu menyerap data baru ini, kemudian secara incremental disatukan dengan data sebelumnya.
Data staging area merupakan database atau tempat penyimpanan intermediate yang berada diantara data source dan data warehouse. Data staging area menyimpan data yang diekstrak dari data source yang mengalami modifikasi berturut-turut untuk akhirnya dimuat ke dalam data warehouse.
Extraction adalah proses mengumpulkan data dari berbagai sumber data. Sumber data bisa berasal dari database operasional atau file berbagai format. Extract merupakan proses memilih data dari satu environment dan memindahkannya ke environment lain.
Transform adalah proses memodifikasi data dari format data sumber menjadi format data warehouse sehingga data yang telah melalui proses ekstraksi sebelumnya dapat masuk dan cocok pada skema data warehouse yang telah ada.
Loading adalah proses memasukkan data yang sudah ditransformasi ke dalam data warehouse. Jika data yang dihasilkan telah sesuai dengan kondisi pada data warehouse, maka proses load dijalankan, dan data dari staging area akan dipindahkan ke data warehouse.
Metadata didefinisikan sebagai data about data. Terdapat dua macam metadata, yaitu; technical metadata dan business metadata. Technical metadata menjelaskan bagaimana data distrukturkan dan disimpan ke dalam mesin komputer. Sedangkan business metadata menjelaskan rules, policies, dan constraints terkait dengan data di dalam sebuah organisasi.
OLAP adalah sebuah perangkat yang mampu menggunakan visualisasi multi dimensi untuk sejumlah data yang memungkinkan untuk menganalisa strategi informasi dengan mempercepat analisis. Informasi juga dapat di tampilkan berupa kubus (cube), yang terdiri dari kategori deskriptif (dimension), dan nilai kuantitatif (measure).
Beberapa hal yang dapat dianalisa serta di kelola dalam OLAP ada beberapa hal seperti dimensi yaitu sebuah atribut yang di tinjau atau yang akan diolah, selain itu ada pengukur (measurement) yang dapat di gunakan sebagai besaran yang di gunakan untuk mengukur irisan antar dimensi yang akan ditinjau, dan yang terakhir adalah kalkulasi ini digunakan untuk mengukur menjumlahkan atau menghitung hasil measurement yang sudah dibuat.
Data warehouse mengkombinasikan informasi dengan meringkas (summarizing) dan mengelompokkan (aggregation). Informasi yang diperlukan ini didefinisikan oleh persetujuan para pengguna sesuai dengan informasi yang mereka butuhkan dalam pengambilan keputusan. Suatu data warehouse hanya berisi informasi yang relevan dengan kebutuhan user untuk mendukung pengambilan keputusan.
Data warehouse memisahkan beban kerja analisis dari beban kerja transaksi sehingga memungkinkan organisasi untuk menggabungkan dan mengkonsolidasi data dari berbagai sumber. Data warehouse membantu organisasi untuk menganalisa tren berdasarkan data repositori organisasi dengan jangka waktu tertentu. Fungsi utama dari data warehouse adalah untuk memfasilitasi organisasi dalam melakukan perencanaan strategis berdasarkan data jangka panjang yang tersimpan dan membuat keputusan yang baik dan cepat.
Berikut definisi dan pengertian data warehouse dari beberapa sumber buku:
- Menurut Inmon (2005), data warehouse adalah kumpulan data yang berorientasi subyek, terintegrasi, bervariasi waktu, dan non-volatile, yang mendukung manajemen pengambilan keputusan.
- Menurut Reinardi (2008), data warehouse merupakan sistem yang mengambil (retrieve) dan mengkosilidasikan (Consolidate) data secara periodik (Periodically) dari sumber data ke dalam penyimpanan dimensional dan ternormalisasi.
- Menurut Sivaganeshet dkk (2012), data warehouse merupakan sebuah database relasional yang dirancang untuk proses query dan analisa yang mengandung data historis yang ditarik dari berbagai sumber yang berbeda-beda.
- Menurut Kimball dan Caserta (2004), data warehouse merupakan basis data relasional yang didesain lebih kepada analisa dan query daripada proses transaksi, dan biasanya mengandung data historis dari proses transaksi dan bisa juga dari sumber lainnya untuk tujuan pengambilan keputusan.
- Menurut Sharma dan Jain (2013), data warehouse merupakan sebuah repositori (tempat penyimpanan) dari data suatu organisasi yang bertujuan untuk memfasilitasi proses analisa dan pelaporan.
Karakteristik Data Warehouse
Menurut Inmon (2005), data warehouse memiliki karakteristik sebagai berikut:a. Berorientasi Subyek (Subject Oriented)
Data warehouse dirancang untuk menganalisa data berdasarkan subyek tertentu dalam perusahaan atau organisasi, bukan pada proses atau fungsi aplikasi tertentu. Hal ini disebabkan karena kebutuhan dari data warehouse adalah untuk menyimpan data yang digunakan sebagai penunjang suatu keputusan.Data warehouse memiliki ciri subject oriented yang berarti dalam desain sistem untuk menganalisis didasari oleh subjek-subjek tertentu yang berkaitan dengan organisasi. Misalnya untuk organisasi asuransi subjek yang terkait dan dalam skala mayor adalah pelanggan, kebijakan, dan klaim. Untuk penjualan, subjek yang berskala mayor contohnya adalah transaksi penjualan, produk, toko atau cabang.
b. Terintegrasi (Integrated)
Data warehouse dapat menyimpan data yang berasal dari sumber data yang berbeda ke dalam suatu format yang konsisten dan saling terintegrasi satu dengan lainnya. Dengan demikian data tidak bisa dipecah-pecah karena data yang ada merupakan suatu kesatuan yang menunjang keseluruhan konsep data warehouse itu sendiri. Syarat integrasi sumber data dapat dipenuhi dengan berbagai cara seperti penamaan variabel yang konsisten, ukuran variabel yang konsisten, struktur pengkodean yang konsiten, dan atribut fisik dari data yang konsisten.Dalam sistem data warehouse sangat memungkinkan untuk mendapatkan sumber database operasional dari luar (external source). Dari kejadian ini menimbulkan kemungkinan adanya perbedaan satuan antara database operasional (internal source) dengan database-database dari luar. Maka dari itu dilakukanlah sebuah integrasi pada satuan bilangan tertentu. Misalnya jika di internal memiliki satuan ukur panjang dengan satuan cm, sedangkan di external source menggunakan mm, maka bisa di pilih salah satu satuan yang menjadi patokan sehingga semua satuan terintegrasi menjadi satu dan sama.
c. Rentang Waktu (Time-Variant)
Seluruh data pada data warehouse dapat dikatakan akurat atau valid pada rentang waktu tertentu. Data warehouse selalu menyerap apa pun yang telah di-load oleh data warehouse dari awal terbentuknya data warehouse hingga yang paling terbaru. Semua data akan dijadikan bahan analisis dan pengambil keputusan yang valid pada rentan waktu tertentu, misalnya harian, mingguan, bulanan, tahunan, dan nilai waktu lainnya.Elemen waktu pada data warehouse harus jelas untuk menjaga kevalidan data pada rentang waktu tertentu karena record data pada data warehouse rentang waktunya lebih besar daripada database operasional demi kepentingan analisis data secara periodik.
d. Non Volatile
Data warehouse tidak berubah (nonvolatile) namun biasanya setiap adanya perubahan yang ada di database operasional akan membuat data warehouse menyerap data yang baru kemudian secara incremental disatukan dengan data sebelumnya. Ini disebabkan data warehouse hanya memiliki dua fungsi manipulasi data, yaitu load data dan access data.Data yang ada pada data warehouse tidak dapat diperbaharui atau di update, tetapi hanya dapat di refresh dari data operasional atau sumber data berdasarkan waktu yang telah ditentukan. Data yang baru selalu ditambahkan sebagai suplemen bagi database itu sendiri dari pada sebagai sebuah perubahan. Database tersebut secara kontinyu menyerap data baru ini, kemudian secara incremental disatukan dengan data sebelumnya.
Komponen Data Warehouse
Menurut Connoly dan Begg (2008), data warehouse terdiri dari beberapa komponen, yaitu:- Penyimpanan Data. Penyimpanan data adalah komponen umum dalam data warehouse. Dalam kurun waktu tertentu sebuah organisasi pasti melakukan penyimpanan data operasional maupun non-operasional dengan metode tertentu. Data yang disimpan oleh perusahaan ini dalam data warehouse menjadi sumber aliran data mentah dan terorganisir berdasar pada subjek seperti pelanggan, produk dan suplier. Penyimpanan data juga sering disebut sebagai data warehouse secara fisik.
- Data Pasar (mart data). Data pasar adalah subset bagian dari data resource yang memiliki tujuan yang spesifik seperti data penjualan, data pembelian dan data inventori. Dalam data warehouse, data pasar adalah cara meningkatkan inputan kedalam data warehouse dan menurunkan tingkat kesalahan yang terjadi. Data pasar digunakan untuk memperkecil biaya dan memperkecil skala.
- Metadata. Metadata adalah salah satu contoh dari data warehouse secara logikal. Metadata digunakan untuk memperoleh informasi dan mengakses data secara aktual. Sistem legacy pada umumnya tidak menyimpan record tentang karakteristik dari data, seperti jumlah item yang ada, lokasi data, asal data atau bagaimana data dapat diakses. Metadata adalah data dari data atau dengan kata lain metadata adalah menyimpan informasi mengenai data-data yang disediakan oleh data warehouse.
Arsitektur Data Warehouse
Menurut Vaisman dan Zimányi (2014), arsitektur data warehouse terdiri dari beberapa layer, yaitu:Arsitektur Data Warehouse |
a. Back-End Tier
Dalam layer back-end terdapat tiga proses yang harus dijalankan, yaitu; extraction, transformation dan loading (ETL process). Dalam mengelola data warehouse, proses ETL bertanggung jawab atas ekstraksi data (extraction), pembersihan (cleansing) dan penyesuaian (customization), dan berakhir pada proses loading data ke dalam data warehouse. Tujuan dari proses ETL adalah memasukkan data ke dalam data warehouse. Sumber data bisa berasal dari data internal (database operasional) atau eksternal suatu organisasi atau bisa juga berasal dari data staging area.Data staging area merupakan database atau tempat penyimpanan intermediate yang berada diantara data source dan data warehouse. Data staging area menyimpan data yang diekstrak dari data source yang mengalami modifikasi berturut-turut untuk akhirnya dimuat ke dalam data warehouse.
Extraction adalah proses mengumpulkan data dari berbagai sumber data. Sumber data bisa berasal dari database operasional atau file berbagai format. Extract merupakan proses memilih data dari satu environment dan memindahkannya ke environment lain.
Transform adalah proses memodifikasi data dari format data sumber menjadi format data warehouse sehingga data yang telah melalui proses ekstraksi sebelumnya dapat masuk dan cocok pada skema data warehouse yang telah ada.
Loading adalah proses memasukkan data yang sudah ditransformasi ke dalam data warehouse. Jika data yang dihasilkan telah sesuai dengan kondisi pada data warehouse, maka proses load dijalankan, dan data dari staging area akan dipindahkan ke data warehouse.
b. Data Warehouse Tier
Layer data warehouseterdiri dari enterprise data warehouse, data mart, dan metadata. Enterprise data warehouse disimpan terpusat dan mencakup data dari seluruh area/departemen dalam suatu organisasi. Sedangkan data mart ditujukan khusus untuk suatu fungsional atau department tertentu dalam suatu organisasi.Metadata didefinisikan sebagai data about data. Terdapat dua macam metadata, yaitu; technical metadata dan business metadata. Technical metadata menjelaskan bagaimana data distrukturkan dan disimpan ke dalam mesin komputer. Sedangkan business metadata menjelaskan rules, policies, dan constraints terkait dengan data di dalam sebuah organisasi.
c. OLAP Tier
OLAP (Online Analytical Processing) adalah suatu metode khusus untuk melakukan analisa data yang terdapat pada media penyimpanan data dan membuat laporan sesuai dengan keinginan user. Dalam layer OLAP terdapat OLAP server yang menampilkan data dalam bentuk multidimensiyang bersumber dari data warehouse.OLAP adalah sebuah perangkat yang mampu menggunakan visualisasi multi dimensi untuk sejumlah data yang memungkinkan untuk menganalisa strategi informasi dengan mempercepat analisis. Informasi juga dapat di tampilkan berupa kubus (cube), yang terdiri dari kategori deskriptif (dimension), dan nilai kuantitatif (measure).
Beberapa hal yang dapat dianalisa serta di kelola dalam OLAP ada beberapa hal seperti dimensi yaitu sebuah atribut yang di tinjau atau yang akan diolah, selain itu ada pengukur (measurement) yang dapat di gunakan sebagai besaran yang di gunakan untuk mengukur irisan antar dimensi yang akan ditinjau, dan yang terakhir adalah kalkulasi ini digunakan untuk mengukur menjumlahkan atau menghitung hasil measurement yang sudah dibuat.
d. Front-End Tier
Dalam layer front-end terdapat alat-alat yang mempermudah pengguna untuk mengeksplorasi konten dari data warehouse. Client tool bisa berupa:- OLAP tools. Alat yang memfasilitasi pengguna untuk mengeksplorasi konten dari data warehouse secara interaktif dengan formulasi query yang kompleks yang melibatkan data dalam jumlah besar.
- Reporting tools. Alat ini membantu pengguna dalam manajemen laporan yang dapat dikeluarkan/diolah menjadi paper based report atau interactive web-based.
- Statistical tools. Alat ini digunakan untuk menganalisa dan memvisualisasikan data cube menggunakan metode statistik.
- Data mining tools. Alat ini memungkinkan pengguna untuk menganalisa data agar memperoleh knowledge yang bernilai sebagai pattern dan tren.
Fungsi Data Warehouse
Menurut Kimball dan Caserta (2004), data warehouse memiliki empat fungsi utama, yaitu:- Pembuatan Laporan, yaitu proses pembuatan laporan merupakan salah satu kegunaan data warehouse yang paling umum dilakukan. Dengan menggunakan query sederhana didapatkan laporan perhari, perbulan, pertahun atau jangka waktu kapan pun yang diinginkan.
- OLAP, yaitu dengan adanya data warehouse, semua informasi baik detail maupun hasil summary yang dibutuhkan dalam proses analisa mudah di dapat. OLAP mendayagunakan konsep multidimensional dan memungkinkan para pemakai menganalisa data sampai mendetail, tanpa mengetikkan satupun perintah query.
- Data Mining, yaitu merupakan proses untuk menggali pengetahuan dan informasi baru dari data yang berjumlah banyak pada data warehouse, dengan menggunakan kecerdasan buatan (artificial intelligence), statistik, dan matematika.
- Proses Informasi Eksekutif, yaitu data warehouse dapat membuat ringkasan informasi yang penting dengan tujuan membuat keputusan bisnis, tanpa harus menjelajahi keseluruhan data. Dengan menggunakan data warehouse segala laporan telah diringkas dan dapat pula mengetahui segala rinciannya secara lengkap, sehingga mempermudah proses pengambilan keputusan.
Manfaat Data Warehouse
Menurut Sharma dan Jain (2013), penggunaan data warehouse membantu organisasi dalam meningkatkan keuntungan jangka panjang. Adapun beberapa manfaat penggunaan data warehouse bagi organisasi adalah sebagai berikut:- Return on Investment (ROI). ROI merupakan peningkatan atau penurunan jumlah uang yang diinvestasikan. Dengan implementasi data warehouse mampu memberikan banyak penghematan untuk organisasi dan memiliki efek yang positif pada pertumbuhan organisasi.
- Enhanced business decisions. Keputusan dari organisasi bergantung pada kemasan data yang tersimpan dalam data warehouse. Keakuratan analisa yang diperoleh dari data warehouse menghasilkan laporan yang akurat dan terorganisir sehingga eksekutif tidak lagi bergantung pada personal dan pengetahuan yang mereka miliki untuk menentukan keputusan.
- Timely access to data. Data organisasi yang tersimpan di beberapa lokasi membuat pemrosesan/penarikan informasi menjadi suatu tugas yang tidak mudah. Namun dengan pemanfaatan data warehouse, data diintegrasikan ditempat yang terpadu/terpusat sehingga waktu pemrosesan informasi menjadi lebih singkat.
- Consistency of data. Dengan pemanfaatan data warehouse, keseluruhan data organisasi akan disimpan dalam bentuk format yang standar dan di lokasi yang terpusat. Hal ini membuat masing-masing unit fungsional menggunakan sumber data yang sama sehingga mereka pun akan memperoleh informasi/gambaran yang sama mengenai pertumbuhan organisasi.
- System performance. Dengan pemanfaatan data warehouse, data operasional dan data untuk keperluan analisis disimpan dalam repositori yang berbeda, sehingga mengurangi beban sistem dalam melakukan proses agregasi atau proses kalkulasi untuk keperluan analisis.
- Increased ICT staff productivity. Dengan pemanfaatan data warehouse, proses analisa dan penemuan sumber permasalahan menjadi lebih cepat dan efektif. Hal ini membuat ICT lebih optimal sehingga menjaga system uptime tanpa harus adanya penambahan Staf.
- Increased customer satisfaction. Sebelum pemanfaatan data warehouse, pengguna dalam hal ini IT bergantung pada tiket layanan untuk mengetahui kapan aplikasi mengalami permasalahan fungsional. Namun sekarang dengan adanya data warehouse, pengguna dapat mengetahui jika aplikasi mengalami permasalahan fungsional, sehingga permasalahan dapat diidentifikasi dalam waktu 15 menit kemudian masalah terpecahkan.
- A data warehouse saves time. Dengan pemanfaatan data warehouse, pengguna dapat dengan cepat membuat keputusan yang berhubungan dengan organisasi. Tidak hanya itu, pengguna dalam hal ini pihak eksekutif pun mampu melakukan query terhadap data yang dibutuhkan tanpa harus menunggu staff IT mengeluarkan laporan.
- A data warehouse enhances data quality and consistency. Dalam data warehouse, data yang bersumber dari berbagai sumber akan dikonversi menjadi format tertentu dan terstandarisasi. Hal ini membuat setiap departemen akan memperoleh data yang sama.
- A data warehouse provides historical intelligence. Data warehouse menyimpan data historis dalam jumlah besar yang memungkinkan untuk dilakukan analisis terhadap data dalam berbagai periode waktu dan tren.
Daftar Pustaka
- Inmon, William H. 2005. Building Data Warehouse. Canada: John Wiley & Sons.
- Rainardi, Vincent. 2008. Building a Data Warehouse with Examples in SQL Server. New York: Springer.
- Sivaganesh, K., Srinivasu,P., dan Satapa, S.C.S. 2012. Optimization of ETL Work Flow in Data Warehouse. International Journal on Computer Science and Engineering (IJCSE).
- Kimball, R. dan Caserta J. 2004. The Data Warehouse ETL Toolkit Practical Techniques for Extracting, Cleaning, Conforming and Delivering Data. Indianapolis: Wiley Publishing Inc.
- Sharma, S., dan Jain, R. 2013. Enhancing Business Intelligence using Data Warehousing : A Multi Case Analysis. International Journal of Advance Research in Computer Science and Management Studies.
- Connolly, Thomas M., Carolyn E. Begg. 2005. Database Systems: Apractical approach to design, implamentation and management. USA: Pearson Education Limited.
- Vaisman A, Zim´anyi E. 2014. Data Warehouse Systems: Design and Implementation. Berlin: Springer-Verlag.