Performansi Response Time Query Pada Hadoop-Hive Menggunakan Metode Partition

Marwan Marwan, Zawiyah Saharuna, Rini Nur

Abstract


Hive menggantikan teknik pemrosesan tradisional RDBMS yang tidak dapat digunakan pada big data. Tetapi, Hive dengan kondisi default akan mencari data secara menyeluruh  saat mengeksekusi query. Metode partition mampu mengelompokkan data, sehingga dilakukan pengujian untuk mengetahui apakah dengan mengelompokkan data akan memberikan peningkatan performansi response time query atau sebaliknya. Pada penelitian ini, dibangun infrastruktur Hadoop cluster dengan sistem multi node  menggunakan virtual machine. Dataset yang digunakan adalah dataset Movielens dengan kardinalitas atribut yaitu 5, 50 dan 100. Tiap dataset terdiri dari 15 juta records data. Berdasarkan hasil penelitian, metode partition selain mampu mengelompokkan data juga memberikan performansi response time query yang lebih cepat sebesar 30.8% dibandingkan kondisi default. Selain itu, Metode partition saat kardinalitas 100 lebih baik dibandingkan dua kardinalitas yang lebih kecil yaitu kardinalitas 5 dan kardinalitas 50.


Full Text:

PDF

References


A. Gupta, M. Saxena, and R. Gill, “Performance Analysis of RDBMS and Hadoop Components with Their File Formats for the Development of Recommender Systems,” 2018 3rd Int. Conf. Converg. Technol. I2CT 2018, pp. 1–6, 2018.

M. Asha Kiran M and Sreedevi, “Hive Based Geospatial Analysis for Tracking and Envisioning of Geospatial Data in Hadoop Environment,” no. 6, pp. 570–573, 2019.

J. Mariam, “An Experimental Study On Different Data Models In Apache Hive,” vol. 6, no. 7, pp. 43–51, 2019.

T. A. Ashwitha, A. P. Rodrigues, and N. N. Chiplunkar, “Movie Dataset Analysis using Hadoop-Hive,” 2017 2nd Int. Conf. Comput. Syst. Inf. Technol. Sustain. Solut., pp. 1–5, 2017.

A. S. Kumar, “Performance Analysis of MySQL Partition , Hive Partition-Bucketing and Apache Pig,” 2016.

A. Ramadhana and I. Krisnadi, “Identifikasi Strategi Pendekatan Big Data Yang Tepat Dalam Perusahaan,”

Y. Huai et al., “Major technical advancements in Apache Hive,” Proc. ACM SIGMOD Int. Conf. Manag. Data, pp. 1235–1246, 2014.

T. DataFlair, “Hive Data Model – Learn to Develop Data Models in Hive,” 2020. [Online]. Available: https://data-flair.training/blogs/hive-data-model/.

A. Thusoo et al., “Hive - A petabyte scale data warehouse using hadoop,” Proc. - Int. Conf. Data Eng., pp. 996–1005, 2010.




DOI: http://dx.doi.org/10.31963/elekterika.v18i1.2313

Refbacks

  • There are currently no refbacks.


Copyright (c) 2021 Marwan Marwan, Zawiyah Saharuna, Rini Nur

Creative Commons License
This work is licensed under a Creative Commons Attribution-ShareAlike 4.0 International License.

Publisher by:

Politeknik Negeri Ujung Pandang
Jurusan Teknik Elektro
Kampus 2 Moncongloe
Jalan Tamalanrea Raya (BTP)
Makassar 90245
E-mail: jurnal-elektrika@poliupg.ac.id

Member of :

This work is licensed under a Creative Commons Attribution-ShareAlike 4.0 International License.

ISSN 1412-8764

e-ISSN 2656-0143


free web stats Statistik Website