Hierarchical Clustering Menggunakan Program R

LATIFAH NUR LAILA
6 min readJul 26, 2021

--

Hallo everyone, kali ini penulis akan membagikan informasi terkait analisis clustering hirarki menggunakan R Studio.

Sebagai awalan perlu diketahui apa itu analisis clustering hirarki yang merupakan pembentukan hirarki cluster dengan sifat sebagai pengembangan suatu hirarki. Algoritma dalam pengelompokan secara hirarki adalah dibuat m cluster dengan beranggotakan satu objek dari data tersebut. Clustering metode hirarki dibagi dalam dua algoritma, yaitu divisive dan agglomerative. Metode hirarki yang terbagi (divisive hierarchical methods) dimulai dari satu cluster besar yang mencakup semua cluster. Cluster dengan ketidakmiripan yang cukup besar akan dipisahkan sehingga membentuk cluster yang lebih kecil. Pemisahan ini dilanjutkan sehingga mencapai sejumlah cluster yang diinginkan. Pada algoritma agglomerative, proses pengelompokan berlangsung dengan menyusun satu seri penggabungan n objek dalam beberapa cluster dan hasil akhirnya semua objek bergabung menjadi satu cluster besar (Fauziah, 2019).

Metode yang akan digunakan kali ini adalah analisis cluster hirarki adalah tipe agglomerative. Hirarki agglomerative clustering merupakan suatu metode hirarki clustering yang bersifat bottom-up yang menggabungkan n buah cluster menjadi satu cluster tunggal. Metode ini meletakkan setiap obyek data sebagai sebuah cluster tersendiri (atomic cluster) (Fauziah, 2019).Terdapat beberapa metode cluster hirarki tipe agglomerative berdasarkan linkage yaitu:

a. Single Linkage

Merupakan metode yang berdasarkan jarak atau similarities antara pasangan dari obyek penelitian, cluster terbentuk berdasarkan setiap obyek yang memiliki jarak paling pendek atau similarities (kemiripan) yang paling besar. Metode single linkage memberikan hasil jika cluster digabungkankan menurut jarak paling dekat antar obyek (Salton, 1989).

b. Average Linkage

Average linkage dilakukan dengan menghitung jarak rata-rata antara semua pasangan obyek di mana satu anggota dari pasangan tersebut adalah bagian dari setiap cluster. Metode average linkage merupakan penyatuan jarak menurut rata-rata antar pasangan obyek setiap himpunan.

c. Complete Linkage

Complete linkage mendasarkan pada perhitungan jarak maksimum. Jarak antar cluster merupakan hasil perhitungan obyek yang memiliki jarak paling jauh. Metode complete linkage terjadi saat cluster digabungkan menurut jarak antar anggota terjauh (similaritas terkecil).

d. Metode Ward

Metode ward’s adalah metode berdasarkan variansi untuk mendapatkan cluster dengan varians terkecil dengan ukuran yang digunakan adalah Sum Square Error (SSE).

Data yang digunakan merupakan data tanaman pangan tahun 2020 yang diperoleh dari BPS .

Maka dilakukan Langkah pengujian menggunakan Rstudio sebagai berikut.

Input data tanaman pangan pada R. Dimana sebelumnya telah melakukan CRTL+C pada data dan menggunakan sintakas berikut.

#Input data pada modul
tanaman<-read.delim("clipboard")
indexsmt<-tanaman[,c(2:4)]
rownames(indexsmt) <- tanaman$Provinsi[1:34]
head(indexsmt)

Melakukan pengecekan data missing dan pengecekan outlier

#Pengecekan missing data
summary(tanaman)

Melakukan pengujian asumsi no multikolinearitas untuk mengetahui hubungan antar variabel. Dalam pengujiannya dapat menggunakan Variance Inflation Factor (VIF) dan matriks korelasi. Pada Variance Inflation Factor (VIF) menggunakan packages “car” dan perintah attach() untuk penguncian data saat melakukan uji multikolinearitas. Uji multikolinearitas dilakukan untuk mengetahui hubungan linear yang pasti diantara beberapa atau semua variabel penelitian yang digunakan. Pendeteksian terjadinya gejala multikolinearitas dapat dilakukan dengan berbagai cara diantaranya yang akan digunakan penelitian ini adalah menggunakan nilai variance inflating factor (VIF). Terjadinya gejala multikolinieritas adalah ketika nilai VIF lebih dari 10. Apabila terjadi multikolinearitas, maka dilakukan pengukuran jarak dengan menggunakan metode jarak Mahalanobis. Sedangkan jika tidak terjadi multikolinearitas perhitungan jarak dilakukan menggunakan metode jarak Euclidean.

#Uji Multikolinearitas dengan nilai VIF < 10
# H0 : Tidak terjadi multikolinieritas
# H1 : Terjadi multikolinieritas
library(car)
attach(indexsmt)
#Multiko Luas Panen dengan variabel lainnya
multiko1=vif(lm(Luas.Panen~Produktivitas+Produksi))
#Multiko Produktivitas dengan variabel lainnya
multiko2=vif(lm(Produktivitas~Luas.Panen+Produksi))
#Multiko Produksi dengan variabel lainnya
multiko3=vif(lm(Produksi~Luas.Panen+Produktivitas))
multiko1
multiko2
multiko3

1. Hipotesis

H0 : Tidak Terdapat Multikolinearitas

H1 : Terdapat Multikolinearitas

2. Tk.Signifikansi

α = 5% = 0.05

3. Daerah Kritis

Tolak H0 jika VIF ≥ 10

4. Stat.Uji dan Keputusan

5.Kesimpulan

Dengan tingkat kepercayaan 95%, data yang ada pada variable produktivitas terhadap variabel lainnya mendukung untuk tolak H0, sementaran variabel lainnya menunjukkan gagal tolak H0.Sehingga menunjukkan tidak adanya multikolinearitas.

Berdasarkan pengujian multikolinearitas yang telah dilakukan, variabel penelitian menunjukkan tidak adanya multikolinearitas. Sehingga perhitungan jarak untuk analisis cluster akan dilakukan dengan metode Euclidean.

Pada uji multikolinearitas menggunakan matriks korelasi, digunakan perintah cor() untuk mendapatkan hasil korelasi antar variabel dan view() untuk menampilkannya.

#Uji Multiko dengan melihat matriks korelasi
korelasi=cor(indexsmt)
View(korelasi)

Pengujian multikolinearitas menggunakan matriks korelasi menunjukkan mayoritas memiliki nilai korelasi rendah dibawah 0.8. Sebagai contoh pada matriks korelasi untuk korelasi antara variabel produktivitas dan luas panen menunjukkan korelalsi sebesar 0.5681. Pasangan variabel yang memiliki nilai korelasi rendah mengakibatkan terjadinya gejala no multikolinearitas atau tidak terdapat hubungan antar variabel. Sehingga secara keseluruhan, dapat dikatakan tanaman pangan yang dihasilkan setiap provinsi di Indonesia pada tahun 2020 tidak memiliki korelasi antar variabelnya (asumsi multikolinearitas terpenuhi).

Selanjutnya melakukan 5 metode cluster hirarki yaitu single linkage, average linkage, complete linkage, ward’s method, dan centroid method. Data yang digunakan untuk menentukan metode analisis cluster yaitu data numerik sehingga sintaks yang digunakan seperti berikut.

#Analisis Kluster Hirarki
tanaman=indexsmt
#Metode Average Linkage
metode_al<-hclust(dist(scale(tanaman)),method="ave")
plot(metode_al)

#Metode Complete Linkage

metode_cl=hclust(dist(scale(tanaman)), method=”complete”)

plot(metode_cl)

#Metode Centroid

metode_centro=hclust(dist(scale(tanaman)), method=”centroid”)

plot(metode_centro)

#Metode Ward

metode_ward=hclust(dist(scale(tanaman)), method=”ward.D”)

plot(metode_ward)

Untuk mempermudah pemilihan metode cluster terbaik maka digunakan koefisien agglomerative dengan menggunakan packages “tidyverse” dan “cluster” sebagai berikut.

library(tidyverse)

library(cluster)

#jarak antar data

d1=dist(indexsmt)

m <- c( “average”, “single”, “complete”, “ward”)

names(m) <- c( “average”, “single”, “complete”, “ward”)

#== menghitung fungsi koefisien untuk melihat nilai yang paling tinggi

ac <- function(x) {

agnes(d1, method = x)$ac

}

map_dbl(m, ac)

Koefisien agglomerative mengukur jumlah struktur pengelompokan yang ditemukan, nilai yang mendekati 1 menunjukkan struktur pengelompokkan yang kuat. Hasil koefisien agglomerative menunjukkan bahwa metode yang memiliki koefisien agglomerative paling tinggi adalah metode ward yaitu sebesar 0.9890. Sehingga pengelompokkan tanaman pangan yang dihasilkan setiap provinsi di Indonesia pada tahun 2020 akan dilakukan dengan hirarki clustering yaitu metode ward. Selanjutnya dilakukan pengelompokkan menjadi 3 cluster yang ditampilkan dalam dendogram.

Melakukan penentuan banyaknya kelompok yang digunakan, menggunakan perintah rect.hclust() maka metode ward sebagai metode terbaik yang dipilih akan dikelompokkan dalam 3 kelompok.

#Menentukan banyak kelompok

rect.hclust(metode_ward,3)

Menggunakan perintah cutree() untuk mengetahui lokasi cluster pada tiap objek dan mengelompokkannya dengan format data frame.

#Pengelompokan data

anggota<-cutree(metode_ward,3)

tabel=data.frame(tanaman,anggota)

anggota pengelompokkan tanaman pangan yang dihasilkan setiap provinsi di Indonesia pada tahun 2020 disajikan dalam tabel berikut.

Selanjutnya dilakukan profilisasi terhadap pengelompokkan dengan metode ward pada Ms. Excel, terlebih dahulu melakukan export hasil pengelompokkan dengan perintah write.csv().

write.csv(tabel, file=”C:\\Users\\laila\\OneDrive\\Desktop\\Datmin\\HasilClusTanaman.csv”)

Masing-masing anggota cluster yang telah diperoleh dilakukan profilisasi untuk mengetahui karakteristik dari masing-masing cluster dengan cara mencari rata-rata masing-masing variabel pada tiap cluster.

Berdasarkan tabel diatas diberi tanda bahwa nilai tinggi setiap variabel berwarna merah, nilai rendah warna kuning, dan nilai sedang warna putih, kemudian diberikan interpretasi sebagai berikut:

1. Cluster 1 merupakan cluster dengan penghasil tanaman pangan yang sedang karena memiliki nilai rata-rata yang sedang untuk semua variabel.

2. Cluster 2 merupakan cluster dengan penghasil tanaman pangan yang rendah karena memiliki nilai rata-rata lahan panen, produktivitas, dan produksi yang rendah.

3.Cluster 3 merupakan cluster dengan penghasil tanaman pangan yang tnggi karena memiliki nilai rata-rata lahan panen, produktivitas, dan produksi yang tinggi.

Reference

Fauziah, A. (2019). HIERARCHICAL CLUSTER ANALYSIS INDUSTRI MANUFAKTUR BESAR DAN SEDANG BERDASARKAN STATUS PENANAMAN MODAL. Yogyakarta: UII.

Salton, G. (1989). Automatic text processing: the transformation, analysis, and retrieval of information by computer. United States: Addison-Wesley Longman Publishing Co., Inc.

--

--

No responses yet