Hadoop itu Penting Ga Sih?

5 Jul 2022 15:30 936 Hits 0 Comments Approved by Plimbi
Hadoop adalah framework open source untuk menyimpan data dan menjalankan aplikasi pada kelompok perangkat keras komoditas. Ini menyediakan penyimpanan besar untuk semua jenis data, kekuatan pemrosesan yang sangat besar, dan kemampuan untuk menangani tugas atau pekerjaan bersamaan yang hampir tak terbatas.

Hadoop adalah framework open source untuk menyimpan data dan menjalankan aplikasi pada kelompok perangkat keras komoditas. Ini menyediakan penyimpanan besar untuk semua jenis data, kekuatan pemrosesan yang sangat besar, dan kemampuan untuk menangani tugas atau pekerjaan bersamaan yang hampir tak terbatas.

 

Mengapa Hadoop penting?

  • Kemampuan untuk menyimpan dan memproses sejumlah besar data apa pun, dengan cepat. Dengan volume dan variasi data yang terus meningkat, terutama dari media sosial dan Internet of Things (IoT), itulah pertimbangan utama
  • Kekuatan computting(komputasi). Model komputasi terdistribusi Hadoop memproses data besar dengan cepat. Semakin banyak node komputasi yang Anda gunakan, semakin banyak kekuatan pemrosesan yang Anda miliki.
  • Toleransi kesalahan. Pemrosesan data dan aplikasi dilindungi dari kegagalan hardware. Jika sebuah node turun, pekerjaan secara otomatis dialihkan ke node lain untuk memastikan komputasi terdistribusi tidak gagal. Beberapa salinan dari semua data disimpan secara otomatis.
  • Fleksibilitas. Tidak seperti database relasional lama, Anda tidak perlu memproses data terlebih dahulu sebelum menyimpannya. Anda dapat menyimpan data sebanyak yang Anda inginkan dan memutuskan bagaimana menggunakannya nanti. Itu termasuk data tidak terstruktur seperti teks, gambar, dan video.
  • Biaya rendah. Framework open source gratis dan menggunakan hardware komoditas untuk menyimpan data dalam jumlah besar.
  • Skalabilitas. Anda dapat dengan mudah mengembangkan sistem Anda untuk menangani lebih banyak data hanya dengan menambahkan node. Sedikit administrasi diperlukan.
  •  

Tantangan menggunakan Hadoop

  • Pemrograman MapReduce tidak cocok untuk semua masalah. Ini bagus untuk permintaan informasi sederhana dan masalah yang dapat dibagi menjadi unit independen, tetapi tidak efisien untuk tugas analitik berulang dan interaktif. MapReduce adalah file-intensif. Karena node tidak saling berkomunikasi kecuali melalui sort dan shuffle, algoritme iteratif memerlukan beberapa fase map-shuffle/sort-reduce untuk diselesaikan. Ini membuat banyak file di antara fase MapReduce dan tidak efisien untuk komputasi analitik tingkat lanjut.
  • Data Security. Tantangan lain berpusat di sekitar masalah keamanan data yang terfragmentasi, meskipun alat dan teknologi baru sedang muncul. Protokol otentikasi Kerberos adalah langkah besar untuk membuat lingkungan Hadoop aman.
  • Manajemen dan tata kelola data yang lengkap. Hadoop tidak memiliki tools berfitur lengkap yang mudah digunakan untuk manajemen data, pembersihan data, tata kelola, dan metadata. Terutama yang kurang adalah tools untuk kualitas dan standarisasi data.
Tags

About The Author

Plimbi adalah tempat menulis untuk semua orang.
Yuk kirim juga tulisanmu sekarang
Submit Artikel