- Dữ liệu minh hoạ phân cụm
- Phân cụm và các phương pháp phân cụm
- Phân cụm 2 bước (two-step cluster)
- Thực hành phân cụm K-means
- Thực hành phân cụm thứ bậc (Hierarchical cluster)-HCA
- Phân cụm cho các biến quan sát
- Mô tả các cụm thu được
- Tìm hiểu cơ chế của các biến độc lập trong việc phân cụm
- Hãy cẩn trọng khi thực hiện phân cụm!
Bài viết này mình sẽ đề cập đến thủ tục phân cụm cho các quan sát trong một bộ dữ liệu
Thủ tục trên SPSS
Sử dụng bộ data bank cluster.sav (đây là thủ tục tính toán nặng nhất trong các phương pháp được giới thiệu ở đây)
Tiếp theo, các bạn đưa các biến dùng để phân cụm vào ô Variables
Trong ví dụ này mình sẽ dùng 5 biến score1, score2, score3, score4, score5
Tại menu Statistics có 1 số lựa chọn sau
+(1) Hiển thị lịch sử qua trình tính toán
+(2) Hiển thị ma trận khoảng cách giữ các quan sát
Nhìn chung thì 2 lựa chọn này các bạn không nên chọn vì sẽ cực tốn output
+(3) Cho ta lựa chọn không phân cụm, ý rằng ta chỉ lấy biểu đồ cây để làm gợi ý thông tin
+(4) Lựa chọn này cho phép ta phân cụm theo đúng 1 số chỉ định trước
+(5) Lựa chọn này cho phép ta thủ nghiệm phân cụm theo nhiều phương án về số cụm
Tại mục Plots, chọn Dendrogram để hiển thị sơ đồ cành cây
Tại mục Menthod
+(1) Cluster Menthod cho phép ta xác định các quy tắc để hình thành cụm. Ví dụ: khi tính toán khoảng cách giữa hai cụm, bạn có thể sử dụng cặp đối tượng gần nhất giữa các cụm hoặc cặp đối tượng xa nhất. hoặc tâm (hat giống) cụm, hoặc trung vị, …. Bạn có thể để mặc định hoặc thay đổi tuỳ theo ý muốn
+(2) Interval cho ta xác định phép đo khoảng cách giữa 2 điểm. Thông thường ta mặc định phép đo Square Ơ-clit
+(3) cho phép ta chuyển đổi lại giá trị của các bién trước khi thực hiện phân cụm, ví dụ như chuẩn hoá để xáo nhoà khác biệt đơn vị đo, hoặc chặn trên, dưới,……. Trong ví dụ này mình sẽ để nguyên là None.
Tại mục Save
Tương tự mục Statistics ta cũng có 3 lựa chọn về việc lưu lại thành viên cụm là (1) không lưu, (2) lưu đúng 1 phương án số cụm và (3) là lưu lại phương án chia nhiều số lượng cụm. Trong bài mình đã thử lưu 3 phương án chia 2-3-4 cụm
Cuối cùng nhấn Continue > Ok để tính toán
Nội dung chính (Nếu bạn chưa đăng nhập, nhiều nội dung có thể đã bị ẩn đi)
Đọc kết quả
Bảng đầu tiên lưu lại lịch trình phân cụm “Agglomeration Schedule”, các bạn có thể bỏ qua
Bảng thứ 2 “Cluster Membership” cho chúng ta biết mỗi quan sát sẽ được chia vào nhóm nào trong các trường hợp ta đã chỉ định số cụm trước
Thực ra bảng này cũng chỉ để xem cho vui. Nếu quan tâm đến việc chia cụm này ra có thể qua lại bảng data, có 3 Cluster Membership đã được tạo. Phần này sẽ được bình luận ở cuối cùng bài viết này.
Cuối cùng ta có 1 biểu đồ cành cây cho quá trình phân nhóm. Nhìn chung nó chỉ sử dụng được về mặt lý thuyết chứ với 1 bảng data lớn thì chẳng thể nào xem bao quát hết được.
còn nữa ...