Mengenal Lebih Dekat Apa itu Apache Hadoop Cluster

13 Jan 2013 18:00 8173 Hits 1 Comments Approved by Plimbi
Pada artikel sebelumnya kita sudah mendengar Big Data, dengan datanya yang sangat besar dan banyak, tetapi sangat menguntungkan bagi perusahaan. Kesulitan ini berujung pada lamanya melakukan proses pengolahan dari Big Data dan membutuhkan resource yang cukup besar.

Pada artikel sebelumnya kita sudah mendengar Big Data, dengan datanya yang sangat besar dan banyak, tetapi sangat menguntungkan bagi perusahaan. Kesulitan ini berujung pada lamanya melakukan proses pengolahan dari Big Data dan membutuhkan resource yang cukup besar. Dan untuk itu muncul nya Hadoop yang di gawangi oleh Apache.

Apache Hadoop adalah sebuah framework dibangun menggunakan bahasa Java, digunakan untuk komputasi dan pemprosesan dataset yang besar (bahkan sangat besar) secara terdistribusi. Hadoop diberi nama setelah inovator Hadoop, Doug Cutting, mendengar panggilan anaknya ke mainan gajah yang berwarna kuning.

Hadoop terdiri dari 4 bagian proyek: - Hadoop common - Hadoop Distributed File System (HDFS) - Hadoop YARN - Hadoop MapReduce Selain itu ada juga proyek dari Apache yang memiliki hubungan dengan Hadoop, seperti Hbase, Hive, Cassandra,Mahout. Hadoop digunakan oleh Perusahaan sebagai pengolah distribusi mereka, seperti Yahoo, Facebook, dan Google. Hal ini karena Hadoop bisa bekerja pada komputer dengan requarement yang cukup minimal, sehingga bisa menguarangi biaya operasi dari Perusahaan. Hadoop Distributed File System (HDFS) digunakan sebagai mdia penyimpanan file yang telah di bagi–bagi berdasarkan blocks dan block - block ini bisa terdapat di lokasi yang berbeda dan dilakukan replikasi dengan urutan block yang mungkin tidak sama per node. HDFS bisa bersifat single node atau multiple node. HDFS berdiri di atas native file system, jadi dia berdiri di atas nativenya seperti EXT3,EXT4,FAT ataupun NTFS. Map Reduce adalah framework yang digunakan untuk mengakses data yang terpadat pada node dan memanipulasinya sesuai kebutuhan. MapReduce ini dapat digunakan dengan menggunakan bahasa pemograman JAVA.

Banyak proyek yang bermunculn berkaitan dengan Hadoop karena tingkat kesulitan dalam menggunakan framework Hadoop yang sudah ada seperti Hive dan Pig. Dengan menggunakan Hive atau Pig kita menggunakan bahasa tingkat tinggi yang disediakan masing–masing tools. Pig menggunakan data flow programming sedangkan Hive menggunakan Query yang mirip SQL. Kemudian ada utiliti lain yaitu Scoop yang dikembangkan oleh Cloudera, perusahaan yang berisi personel yang pernah bekerja di google, yahoo, facebook, dan lainnya. Scoop memudahkan kita untuk transformasi data-data dari RDBMS ke dalam HDFS.

Kemudian ada database yang menggunakan framework Hadoop yaitu HBASE yang diinspirasi dari Big Tablenya Google. Dan Hbase inilah yang Google gunakan sebagai pengolah data mereka. Selain kedua tadi Amazon mengeluarkan HDFS keluaran mereka, yang mereka namakan Amazon file S3. Facebook mengklaim dirinya sebagai pengguna Cluster Hadoop terbesar. Selain Seri free dan Open source, beberapa perusahaan juga mengeluarkan seri komersial mereka seperti IBM, EMC, Cloudera, dan lainnya. IBM mengerluarkan Seri mereka untuk Hadoop, mereka beri nama WebSphere eXtreme Scale. IBM juga mengeluarkan seri Hadoop mereka yang bernama InfoSpehe BigInsight, Hadoop versi memiliki kemampuan Hadoop versi Basic dan enterprise. Selain IBM ada juga Cloudera, CDH (Cloudera Distribution Including Apache Hadoop), seri ini merka keluarkan dalam beberapa paket. Seperti Cloudera Enterprise dan Cloudera free. Cloudera Free lebih bersifat basic dan simple. Berbeda dengan Cloudera Enterprise, yang lebih kompleks, bisa di tambahkan mencapai 50 node, selain itu Cloudera Enterprise mendapatkan support 24 jam. Dan juga para pengguna Cloudera Enterprise akan mendapatkan Cloudera Manager. Cloudera Manager berfungsi untuk mengatur mesin-mesin yang terhubung.

Saingan mereka berdua datang dari EMC, EMC mengeluarkan seri mereka EMC Greenplum Community Edition and EMC Greenplum HD Enterprise Edition pada medi 2011. perbedaanya EMC Greenplum Community Edition bersifat free, dan fungsi - fungsi lebih ke arah basic, dan tidak mendapatkan support. Berbeda dengan EMC Greenplum HD enterprise Edition, lebih bersifat kompleks, dan medapatkan suport selama 24 jam. Selain itu pengguna versi komersil, mendapatkan MapReduce aplikasion,dan juga beberapa fitur milik EMC. Apa pun itu Hadoop sangat berharga untuk dipelajari, karena trend Big Data di Masa mendatang sudah di depan mata, karena itu Hadoop menjadi bagian penting menyelesaikan persoalan Big Data. Tertarik mempelajarinya? coba download Apache Hadoop di sini. [PNJ]

Tags

About The Author

Plimbi Editor 999
Administrator

Plimbi Editor

Plimbi Chief Editor
Plimbi adalah tempat menulis untuk semua orang.
Yuk kirim juga tulisanmu sekarang
Submit Artikel