Monday 8 December 2014

Resume Data Warehouse pertemuan 10

DTS
Sekumpulan utilitas yang memungkinkan proses ExtractTransform, dan Load secara otomatis dari atau ke database.
FUNGSI DTS
untuk melakukan import, export dan transport data yang beragam antara satu atau lebih sumber data, seperti misalnya SQL Server, Microsoft Excel atau Microsoft Access.
DTS tersedia dalam Microsoft SQL Server, namun sejak Microsoft SQL Server 2005 DTS digantikan oleh SQL Server Integration Services (SSIS). Walaupun demikian, DTS masih bisa diinstall sebagai tambahan packages dan dijalankan pada Microsoft SQL Server 2005 dan lebih baru.\
PERBEDAAN DTS DAN SSIS
DTS :
  1. DTS adalah sekumpulan dari obyek yang digunakan sebagai alat ETS Tools untuk mengekstrak, mentransform dan memuat informasi dari sebuah database
  2. DTS adalah bagian dari Microsoft SQL Server 2000
  3. Menggunakan Activex Script
  4. Tidak ada cara cepat
  5. Transformasi yang tersedia terbatas
  6. Tidak didukung fungsi Business Intelegent
  7. Hanya bisa dikembangkan di server local

SSIS :
  1. SSIS adalah sebuah alat yang disediakan Microsoft untuk mengekstrak data dari sumber lain
  2. SSIS adalah komponen dari Microsoft SQL Server 2005
  3. Menggunakan Scripting Language
  4. Ada cara cepat
  5. Tersedianya fitur tranformasi yang sangat besar
  6. Didukung oleh fungsi Business Intellegent
  7. Dapat dikembangkan di berbagai server menggunakan BIDS

Saturday 29 November 2014

Resume Data Warehouse pertemuan 9

„DEFINISI DTS
adalah memindahkan data dari database OLTP ke data warehouse dengan tujuannya. Hal ini dilakukakn ketika validasi, cleaning up, konsolidasi, dan mengubah data yang diperlukan. (Vieria, Robert, 2000, p91)
TOOLS DTS 
„Tool-tool yang tersedia untuk menciptakan dan mengeksekusi DTS packages
1.Import Export Wizzard
Import/Export Wizard untuk membangun DTS packages sederhana dan mensupport perpindahan data dan transformasi sederhana.Import Export Wizzard
2.DTS Designer
DTS Designer mengimplementasikan DTS object model graphically yang memungkinkan user untuk menciptakan DTS packages dengan fungsi luas.
3.DTS Run
DTSRun merupakan command prompt utility yang digunakan untuk mengeksekusi DTS packages yang ada.
4.DTSRunUI
DTSRunUI merupakan grafik interface untuk DTSRun, yang juga mengijinkan pemakaian variable global dan command lines.
TASK DALAM SEBUAH PACKAGE
  1. Transformasi data
  2. Mengcopy dan mengatur data
  3. Menjalankan tasks sebagai jobs dari dalam sebuah package

CONNECTION UNTUK MENGAKSES DAN MEMINDAHKAN DATA
„Agar eksekusi DTS tasks dalam menyalin dan memindahkan data berjalan sukses, sebuah DTS package harus mempunyai hubungan yang valid antara sumber data asal dengan sumber data tujua. Ketika menciptakan sebuah package, user dapat mengkonfigurasikan hubungan dengan memilih jenis hubungan dari daftar yang tersedia pada OLE DB providers dan ODBC drivers. Jenis hubungan yang tersedia antara lain:
  1. Microsoft Data Acces Component (MDAC) drivers
  2. Microsoft Jet drivers
  3. Other drivers
  4. OLE DB CONNECTION

Saturday 22 November 2014

Resume Data Warehouse Pertemuan 8

Ketika kita bicara tentang DATA, yang terpikirkan saya pertama kali adalah hasil capture/tangkapan berupa fakta-fakta lapangan atau arsip-arsip yang biasanya berserakan dimana-mana, atau data dapat didefinisikan sesuatu yang belum memiliki makna (cikal bakal informasi). Saya membuat artikel ini sebagai salah satu keperluan untuk referensi tugas saya, dan kalau ditulis diblog bisa dibaca lagi suatu saat kalau lupa lagi. Mari kita mulai dengan mendefinisikan data menurut beberapa sumber:
Menurut Turban et al. (2005, p38), data adalah deskripsi dasar tentang sesuatu, kejadian, kegiatan, dan transaksi yang ditangkap, direkam, disimpan, dan diklasifikasikan namun tidak terorganisir untuk menyampaikan suatu arti khusus.
Menurut McLeod dan Schell (2007, p12), data terdiri dai fakta dan gambaran yang secara umum tidak dapat digunakan oleh user (perlu diolah).
Dari kedua definisi diatas, dapat diambil kesimpulan bahwa data adalah fakta yang masih mentah dan belum memiliki arti bagi pengguna karena belum diolah.
Semakin banyaknya data yang menumpuk dalam sebuah perusahaan, maka dibutuhkan sebuah penyortiran atau penilaian apakah data tersebut berkualitas atau tidak, sehingga hanya data yang berkualitas saja yang dipertahankan dan diarsipkan, data yang tidak berkualitas, ya masuk sampah. Jika tidak ada penilaian atau pengukuran seperti ini akan mungkin begitu menumpuknya data tetapi tidak berkualitas. Nah berikut ini akan diberikan penjelasan data yang berkualitas itu seperti apa, sehingga sebuah organisasi dapat memanfaatkan data tersebut untuk kepentingan lain dan akan mengurangi sapce/tempat penyimpanan dan efisien.
Menurut Mark Mosley (2008), dalam bukunya “Dictionary of Data Management”, pengertian kualitas data adalah level data yang menyatakan data tersebut akurat (accurate), lengkap (complete), timely (update), konsisten (consistent) sesuai dengan semua kebutuhan peraturan bisnis dan relevan.
Beberapa indikator data yang berkualitas antara lain sebagai berikut:
  1. ACCURACY = data yang tersimpan nilainya benar (name cocok dengan alamatnya)
  2. DOMAIN INTEGRITY = nilai attributnya sesuai batasan yang diperkenankan (nilai attribut laki n perempuan)
  3. DATA TYPE = Nilai data disimpan dalam tipe data yang sesuai (data nama disimpan dengan tipe text)
  4. CONSISTENCY = nilai sebuah field data akan sama semua dalam berbagai berkas (field produk A dgn kode 123, akan selalu sama kodenya di setiap berkas lain)
  5. REDUDANCY = tidak boleh ada data yang sama disimpan di tempat yang berbeda dalam satu sistem
  6. COMPLETENESS = Tidak ada nilai atttribut salah yang diberikan dalam sistem
  7. DATA ANOMALY = sebuah field hanya digunakan sesuai kegunaannya. (field address3  digunakan untuk mencatat baris ketiga dalam alamat bukan untuk telp atau fax)
  8. CLARITY = Kejelasan arti kegunaan dan cara penulisan sebuah data (penamaan khusus)
  9. TIMELY = merepresentasikan waktu dari data yang dimasukkan (jika data digunakan perhari maka data pada warehaouse harus juga dibuat per hari)
  10. USEFULNESS = setiap data harus benar digunakan oleh user
  11. ADHERENCE TO DATA INTEGRITY RULES = taat pada aturan keterhubungan data
Ada beberapa teknik pengukuran apakah data di organisasi/perusahaan kita berkualitas atau tidak, salah satunya dalam buku “Executing Data Quality Projects: Ten Steps to  Quality Data and Trusted Information” oleh Danette McGilvray dari MIT dengan 10 langkah seperti pada gambar dibawah ini

Selain kita menentukan data yang berkualitas, kita juga sebaiknya memperhatikan siklus hidup dari data tersebut, bagaimana data dibuat, disimpan sampai dengan data tersebut dihancurkan, seperti apa metode dari setiap pase-nya.

Monday 17 November 2014

Resume Data Warehouse Pertemuan 7

Pengertian Extract Transform Load ( ETL)


ETL adalah kumpulan proses menyiapkan data dari operational source untuk data. Proses ini terdiri dari extracting,transformingloading, dan beberapa proses yang dilakukan sebelum dipublikasikan ke dalamdata warehouse. Jadi, ETL atauextract, transform, loading adalah fase pemrosesan data dari sumber data masuk ke dalam data warehouse. Tujuan ETL adalah mengumpulkan, menyaring, mengolah dan menggabungkan datadata yang relevan dari berbagai sumber untuk disimpan ke dalam data warehouse. ETL juga dapat digunakan untuk mengintegrasikan data
Dengan sistem yang sudah ada sebelumnya. Hasil dari proses ETL adalah dihasilkannya data yang memenuhi kriteria data warehouse seperti data historis, terpadu, terangkum, statis dan memiliki struktur yang dirancang untuk keperluan proses analisis. Proses ETL terdiri dari tiga tahap, yaitu :
1. Extract
Langkah pertama dari proses ETL adalah proses penarikan data dari satu atau lebih sistem operasional sebagai sumber data (bisa diambil dari sistem OLTP, tapi bisa juga dari sumber data di luar system database). Kebanyakan proyek data warehousemenggabungkan data dari sumber-sumber yang berbeda. Pada hakekatnya, proses ekstraksi adalah proses penguraian dan pembersihan data yang diekstrak untuk mendapatkan suatu pola atau struktur data yang diinginkan.

Terdapat beberapa fungsi ekstraksi data, yaitu :

  1. Ekstraksi data secara otomatis dari aplikasi sumber.
  2. Penyaringan atau seleksi data hasil ekstraksi.
  3. Pengiriman data dari berbagai platform aplikasi ke sumber data.
  4. Perubahan format layout data dari format aslinya.
  5. Penyimpanan dalam file sementara untuk penggabungan dengan hasil ekstraksi dari sumber lain.

2. Transform
Proses membersihkan data yang telah diambil pada proses extract sehingga data itu sesuai dengan struktur data warehouse atau data mart. Hal-hal yang dapat dilakukan dalam tahap transformasi :

  1. Hanya memilih kolom tertentu saja untuk dimasukkan ke dalam data warehouse.
  2. Menerjemahkan nilai berupa kode (misal, database sumber menyimpan nilai 1 untuk pria dan 2 untuk wanita, tetapi data warehouse menyimpan M untuk pria dan F untuk wanita). Proses yang dilakukan disebut automated data cleansing, tidak ada pembersihan secara manual selama proses ETL.
  3. Mengkodekan nilai-nilai ke dalam bentuk bebas ( missal memetakan ”male” ,”I”, dan ”Mr ke dalam ”M”).
  4. Melakukan perhitungan nilai-nilai baru (misal sale_amount = qty*unit_price).
  5. Menggabungkan data dari berbagai sumeber bersama-sama.
  6. Membuat ringkasan dari sekumpulan baris data (misal, total penjualan untuk setiap bagian).
Kesulitan yang terjadi pada proses transformasi adalah data harus digabungkan dari beberapa sistem terpisah, harus dibersihkan sehingga konsisten dan harus diagregasi untuk mempercepat analisis.
3. Load
Fase load merupakan tahapan yang berfungsi untuk memasukkan data ke dalam target akhir, yaitu ke dalam suatu data warehouse. Waktu dan jangkauan untuk mengganti atau menambah data tergantung pada perancangan data warehouse pada waktu menganalisa keperluan informasi. Fase load berinteraksi dengan suatu database,constraint didefinisikan dalam skema database sebagai suatu trigger yang diaktifkan pada waktu melakukan load data (contohnya : uniqueness,referential, integrity, mandatory fields), yang juga berkontribusi untuk keseluruhan tampilan dan kualitas data dari proses ETL.


Sunday 19 October 2014

Resume Data Warehouse pertemuan 6

Dalam menggambarkan relasi database pada data warehouse dapat digunakan 2 pendekatan model skema yaitu star schema atau snowflake schema. Disebut star schema karena EntityRelationship Diagram atau ERD-nya yang menyerupai bintang, tabel fakta berada di tengah dengan dikelilingi tabel dimensi di sampingnya.
Berikut adalah contoh gambar star schema :



Sedangkan snowflake schema lebih kompleks dibandingkan dengan star schema karena merupakan pengembangan dari star schema, karena tabel-tabel dimensinya merupakan hasil normalisasi dari beberapa tabel yang berhubungan.
Berikut adalah contoh gambar snowflake schema :

Berdasarkan hasil penelitian yang dilakukan oleh Paiman dkk. (2010) yang berjudul “Analisis Perbandingan Antara Model Dimensi Star Schema Dan Snowflake”, didapat kesimpulan mengenai kelebihan dan kekurangan baik dari star schema maupun snowflake schema. Penelitian ini dilakukan dengan cara mengolah database adventureworks yang merupakan database sampel yang telah disiapkan oleh Microsoft SqlServer 2005. Dari databasetersebut dibuat beberapa skenario yang diterapkan menggunakan dua model skema yaitu star schema dan snowflake schema.
Berikut adalah kelebihan dan kekurangan model dimensi star schema.
Kelebihan model dimensi star schema :
  1. cenderung mudah dipahami karena modelnya yang lebih sederhana,
  2. memudahkan mencari isi karena kesderhanaannya dengan cara melihat step by stepdari masing-masing dimensinya,
  3. proses query lebih cepat pada saat proses OLAP.
Kekurangan model dimensi star schema :
  1. ukuran data lebih besar karena ada data yang disimpan ulang,
  2. maintenance dan update lebih sulit.
Berikut adalah kelebihan dan kekurangan model dimensi snowflake schema.
Kelebihan model dimensi snowflake schema :
  1. ukuran data lebih kecil di dalam tempat penyimpanan,
  2. lebih mudah dilakukan maintenance dan update,
  3. proses query lebih cepat pada saat proses ETL.
Kekurangan model dimensi snowflake schema :
  1. cenderung lebih sulit dipahami karena kompleksitasnya,
  2. sulit mencari isi karena melihat strukturnya yang kompleks dan bercabang-cabang.
Sumber
Sumber 2 : Paiman, A.S., William, R., Willyam, F., 2010. Analisis Perbandingan Antara Model Dimensi Star Schema Dan Snowflake. Universitas Bina Nusantara, Jakarta.
sumber 3 : Ramadhan, T.I., 2013. Perancangan dan Pembuatan Data Warehouse (Studi Kasus Database Swalayan Kopma UGM). Universitas Gadjah Mada, Yogyakarta

Tuesday 14 October 2014

Tugas Data Warehouse Pertemuan 6

Gambar Tabel Database Adventureworks Diagram

Berdasarkan tabel-tabel dan relasi yang ada pada gambar tersebut, dibuatkan ilustrasi skenario yaitu supervisor dari perusahaan A ingin mendapatkan laporan penjualan barang meliputi jumlah barang yang terjual dan total penjualan dimana laporan tersebut dapat dilihat dari segi product, product subcategory, currency rate, dan customer. supervisor perusahaan juga ingin melihat laporan tersebut dalam periode bulanan, quartal, dan tahunan. dari permintaan tersebut, maka dibuatlah diagram OLAP dimensi star schema berikut

Gambar Tabel Diagram Star Schema

resume data warehouse pertemuan 4