Thực hành phân cụm thứ bậc (Hierarchical cluster)-HCA

This entry is part 5 of 9 in the series Phân tích cụm- Cluster

Bài viết này mình sẽ đề cập đến thủ tục phân cụm cho các quan sát trong một bộ dữ liệu

Thủ tục trên SPSS

Sử dụng bộ data bank cluster.sav (đây là thủ tục tính toán nặng nhất trong các phương pháp được giới thiệu ở đây)

Tiếp theo, các bạn đưa các biến dùng để phân cụm vào ô Variables

Trong ví dụ này mình sẽ dùng 5 biến score1, score2, score3, score4, score5

Tại menu Statistics có 1 số lựa chọn sau

+(1) Hiển thị lịch sử qua trình tính toán

+(2) Hiển thị ma trận khoảng cách giữ các quan sát

Nhìn chung thì 2 lựa chọn này các bạn không nên chọn vì sẽ cực tốn output

+(3) Cho ta lựa chọn không phân cụm, ý rằng ta chỉ lấy biểu đồ cây để làm gợi ý thông tin

+(4) Lựa chọn này cho phép ta phân cụm theo đúng 1 số chỉ định trước

+(5) Lựa chọn này cho phép ta thủ nghiệm phân cụm theo nhiều phương án về số cụm

Tại mục Plots, chọn Dendrogram để hiển thị sơ đồ cành cây

Tại mục Menthod

+(1) Cluster Menthod cho phép ta xác định các quy tắc để hình thành cụm. Ví dụ: khi tính toán khoảng cách giữa hai cụm, bạn có thể sử dụng cặp đối tượng gần nhất giữa các cụm hoặc cặp đối tượng xa nhất. hoặc tâm (hat giống) cụm, hoặc trung vị, …. Bạn có thể để mặc định hoặc thay đổi tuỳ theo ý muốn

+(2) Interval cho ta xác định phép đo khoảng cách giữa 2 điểm. Thông thường ta mặc định phép đo Square Ơ-clit

+(3) cho phép ta chuyển đổi lại giá trị của các bién trước khi thực hiện phân cụm, ví dụ như chuẩn hoá để xáo nhoà khác biệt đơn vị đo, hoặc chặn trên, dưới,……. Trong ví dụ này mình sẽ để nguyên là None.

Tại mục Save

Tương tự mục Statistics ta cũng có 3 lựa chọn về việc lưu lại thành viên cụm là (1) không lưu, (2) lưu đúng 1 phương án số cụm và (3) là lưu lại phương án chia nhiều số lượng cụm. Trong bài mình đã thử lưu 3 phương án chia 2-3-4 cụm

Cuối cùng nhấn Continue > Ok để tính toán

Nội dung chính (Nếu bạn chưa đăng nhập, nhiều nội dung có thể đã bị ẩn đi)

Đọc kết quả

Bảng đầu tiên lưu lại lịch trình phân cụm “Agglomeration Schedule”, các bạn có thể bỏ qua

Bảng thứ 2 “Cluster Membership” cho chúng ta biết mỗi quan sát sẽ được chia vào nhóm nào trong các trường hợp ta đã chỉ định số cụm trước

Thực ra bảng này cũng chỉ để xem cho vui. Nếu quan tâm đến việc chia cụm này ra có thể qua lại bảng data, có 3 Cluster Membership đã được tạo. Phần này sẽ được bình luận ở cuối cùng bài viết này.

Cuối cùng ta có 1 biểu đồ cành cây cho quá trình phân nhóm. Nhìn chung nó chỉ sử dụng được về mặt lý thuyết chứ với 1 bảng data lớn thì chẳng thể nào xem bao quát hết được.

 

còn nữa ...

Để xem tiếp các nội dung bên dưới bạn cần phải đăng nhập vào tài khoản đã được phân quyền đọc tương ứng.

Nếu chưa có tài khoản hãy nhấn  ĐĂNG KÝ hoặc ĐĂNG NHẬP nếu bạn đã có tài khoản.

Đăng ký | Quên mật khẩu?

Trang: 1 2