Komparasi Kinerja Label-Encoding dengan One-Hot-Encoding pada Algoritma K-Nearest Neighbor menggunakan Himpunan Data Campuran

Mohammad Guntara, Femi Dwi Astuti

Abstract


Algoritma K-Nearest Neighbor (KNN) adalah salah satu algoritma dalam data mining, bekerja didasarkan pada pengukuran jarak antara tupel pada data-uji dan masing-masing data-latih untuk memutuskan luaran klasifikasi akhir. Pada algoritma ini jenis data pada tiap atribut harus berupa numerik atau kontinyu, karena dihitung jarak setiap atribut yang sama untuk setiap tupel dengan tupel yang akan dicari kelasnya. Akan tetapi pada realitanya himpunan-data yang akan diolah tidak selalu berupa numerik, tetapi dapat berupa kategorikal baik nominal maupun ordinal.Untuk data numerik dapat langsung diolah tanpa proses transformasi(pengodean), adapun untuk  jenis data nominal pengodean ke numerik dilakukan dengan metode label umumnya berupa nomor urut, namun hal ini dirasa kurang tepat mengingat nomor urut bersifat kuantitatif , Untuk itulah digunakan pengodean dengan metode one-hot-encoding (OHE) dimana setiap item data pada suatu atribut dikonversi ke bit 1 dan 0 yang menjadikan antar obyek pada himpunan-data setara. Untuk mengetahui sejauh mana akurasi transformasi OHE dibanding transformasi label diimplementasikan pada algoritma KNN untuk prediksi kelulusan mahasiswa dimana terdapat 2 jenis atribut yakni numerik dan nominal. Berdasarkan pengujian 2 metode pengodean tersebut diketahui bahwa akurasi transformasi dengan OHE pada berbagai nilai neighbor lebih tinggi dibanding metode label, sedangkan kecepatan proses kedua metode pengodean relatif sama.

Keywords


one-hot-encoding; label; pengodean; KNN

References


M. A. Harriz and H. Setiyowati, “ Komparasi Algoritma Decission Tree dan KNN dalam Mengklasifikasi Daerah Berdasarkan Produksi Listrik,” JIKO(JURNAL INFORMATIKA DAN KOMPUTER, vol. 7

No 2, p. 168, 2023.

M. C. Jia Wei Han, Data Mining : Comcept and Tecniques (Requirements for Cluster Analysis). USA:

Morgan Kaufmann Publisher, 2012.

J. Brownly. Machine learning mastery. [Online]. Available: https://machinelearningmastery.com/

one-hot-encoding-for-categorical-data/

N. Y. M. Sofyan Irwanto, Fitra A. Bachtiar, “Klasifikasi aktivitas manusia menggunakan algoritme

computed input weight extreme learning machine dengan reduksi dimensi principal component analysis,” Jurnal Teknologi Informasi dan Ilmu Komputer (JTIIK), vol. 9, no. 6, pp. 1195–1202, 2022.

Rektor, Peraturan Rektor No :L.05.1/001/UTDI/PR/IX/2022 tentang Pendidikan dan Pembelajaran UTDI.

UTDI, 2022.

Kemdikbud, Permendikbud no 3 tahun 2020 tentang Standar Nasional Pendidikan Tinggi. Kemdikbud,

J. A. Samudraa, S. Anraeni, and Hermana, “Penerapan metode k-nearest neighbor untuk memprediksi

tingkat kelulusan mahasiswa berbasis web pada Fakultas Ilmu Komputer UMI,” Buletin Sistem Informasi dan Teknologi Islam, vol. 1 No 4, pp. 230–237, 2020.

A. J. T, D. Yanosma, and K. A. , “Implementasi metode k-nearest neighbor (KNN) dan simple additive

weighting (saw) dalam pengambilan keputusan seleksi penerimaan anggota paskibraka,” Pseudocode,

vol. 2 no.3, pp. 98–112, 2016.

Silviana, R. Kurniawan, A. Nazir, E. Budianita, F. Syafria, and S. K. Gusti, “Pengklasteran risiko covid19 di riau menggunakan teknik one hot encoding dan algoritma k-means clustering,” JURNAL INFORMASI DAN KOMPUTER, vol. 10 no.2, pp. 154–162, 2022.

T. Al-Shehari and R. A. Alsowail, “An insider data leakage detection using one-hot encoding, synthetic

minority oversampling and machine learning techniques,” Entropy, vol. 23, no. 10, pp. 1257–1258,

S. Bagui, D. Nandi, S. Bagui, and R. J. White), “Machine learning and deep learning for phishing email

classification using one-hot encodin,” Journal of Computer Science-Univ. of Wes Florida, vol. 17, pp.

–623, 2021.

Mohammad Guntara et al.

S. Mulyati, S. M. Husein, and Ramdhan, “Rancang bangun aplikasi data mining prediksi kelulusan

ujian nasional menggunakan algoritma (knn) k-nearest neighbor dengan metode euclidean distance

pada smpn 2 pagedangan,” Jurnal Teknik Informatika (JIKA) Universitas Muhammadiyah Tangerang,

pp. . 65–73, Januari 2020.

S. R. Cholil, T. Handayani, R. Prathivi, and R. Ardianita, “Implementasi Algoritma Klasifikasi KNearest Neighbor (KNN) Untuk Klasifikasi Seleksi Penerima Beasiswa,” IJCIT, vol. 6, no. 2, pp. 118–

, 2021.

Kartarina and N. K. S. N. luh Putu Juniarti, “Analisis metode k-nearest neighbors (k-nn) dan naive

bayes dalam memprediksi kelulusan mahasiswa,” JTIM : Jurnal Teknologi Informasi dan Multimedia,

vol. 3, no. 2, pp. 106–112, 2021




DOI: http://dx.doi.org/10.26798/jiko.v9i2.1605

Article Metrics

Abstract view : 0 times
PDF (Bahasa Indonesia) - 0 times

Refbacks

  • There are currently no refbacks.




Copyright (c) 2025 Mohammad Guntara


JIKO (Jurnal Informatika dan Komputer)

Published by
Lembaga Penelitian dan Pengabdian Masyarakat
Universitas Teknologi Digital Indonesia (d.h STMIK AKAKOM)

Jl. Raya Janti (Majapahit) No. 143 Yogyakarta, 55198
Telp. (0274)486664

Website : https://www.utdi.ac.id/

e-ISSN : 2477-3964 
p-ISSN : 2477-4413