Phân cụm và các phương pháp phân cụm

This entry is part 2 of 9 in the series Phân tích cụm- Cluster

Mở đầu

Trong các bài toán trước đây chúng có 1 dạng thức chung đó là có biến độc lập và biến phụ thuộc. Bằng 1 cách nào đó chúng ta tìm cách biểu diễn mối quan hệ ấy, sau đó nhằm dự đoán biến phụ thuộc theo các biến độc lập (biến giải thích)

Bài toán chúng ta sắp tiếp cận sau đây sẽ không có biến phụ thuộc. Mục đích của bào toán này là nhóm các phần tử (quan sát) có các tiêu chí tương đồng lại 1 nhóm; ví dụ như phân khúc khách hàng trong marketing chẳng hạn.

Giả sử bạn nghiên cứu mô hình các yếu tố ảnh hưởng đến sự hài lòng của khách hàng, bạn sẽ được 1 mô hình sự hài lòng =β1*co sở vât chât + β2* khả năng đáp ứng +β3* đồng cảm + …… và trong khi làm bài các bạn thường đề xuất giải pháp là nâng cao tất cả các biến số ấy lên. Đó là giải pháp rất hợp lý trên giấy nhưng cũng rất phi thực tế vì làm sao bạn làm hài lòng tất cả được, và mặt khác nguồn lực của chúng ta cũng rất có hạn. Vậy chúng ta phải làm gì với tập dữ liệu này để có giải pháp khoa học hơn

+ (1) Phương án đầu tiên đó chính là cần thêm dữ liệu về những khách hàng trung thành/ khách hàng có giá trị lớn. Đó mới là đối tượng cần làm hài lòng. Sau đó xem xét lại mô hình trên nhóm đối tượng này xem cần nâng cao yếu tố nào để duy trì và nâng cao sự hài lòng của họ. Đây chính là hình thức phân cụm khách hàng theo “giá trị” của họ

+ (2) Phương án 2 có thẻ là dùng 1 biến số (ví dụ phương tiện hữu hình) xem những người đánh giá nó không tốt là ở khu vực nào, cửa hàng cụ thể nào. Rất rõ ràng phải không. Từ đó ta sẽ có các giải pháp phù hợp. Tương tự có thể là các biến số liên quan đến con người. Đó chính là việc phân cụm theo 1 biến số nào nó

Trên thực tế thì các biến số không ít, đơn giản như vậy. Ví dụ muón phân đoạn thị trường người ta cần căn cứ 1 lúc nhiều biên số như: tuổi, thu nhập, khu vực,…. Từ đó sẽ có chính sách target phù hợp từ phân khúc mà họ chọn, hoặc cần nghiên cứu sâu trên đúng nhóm khách hàng mục tiêu này để đưa ra chính sách. Lúc này ta cần phân cụm dựa trên nhiều biến số

Các tiêu chí để có kết quả phân cụm tốt

Chúng ta sẽ cần cân đối tất các các tiêu chí sau

+ Số cụm ít nhất

+ Các thành viên cụm có tính chất tương đồng nhất

+ Các cụm có thể được mô tả một cách rõ ràng

+ Các cụng khác nhau phải được phân biệt với nhau ở 1 hay 1 vài tiêu chí rõ nét

Các thuật toán phân cụm

Có 2 thuật toán phân cụm đó là phân cụm thứ bậc và không thứ bậc

Phân cụm thứ bậc

Có 2 hướng để phân cụm thứ bậc đó là tích tụ và phân chia. Ở đây mình sẽ nói đến phân cụm tích tụ.

+ Giả sử ban đầu có n quan sát (n điểm). Lần đầu tiên sẽ nhóm 2 điểm gần nhất thành 1 cụm. 1 cụm được đại diện bằng 1 tâm cụm, và sẽ dùng như 1 điểm tại bước tiếp theo. Như vậy lúc này coi như sẽ chỉ có n-1 điểm

+ Bước thứ 2 ta tiêp tục làm lặp lại, bước 3, 4,….. Chú ý rằng tâm mỗi cụm mới được tính là tâm của tất cả các điểm (dù là mới hay cũ trong cụm mới)

+ Như vậy sau n-1 bước ta sẽ thu được 1 cụm duy nhất. Cả quá trình sẽ được tóm tắt băng sơ đồ tích tụ dạng cành cây (Dendrogram). Sau này dựa vào đây ta có thể biết được nếu chia thành tất cả bao nhiêu cụm thì mỗi cụm gồm những phần tử nào. Đáp số cho cách phân cụm này là duy nhất.

Minh hoạ với bài toán phân cụm 8 điểm của của hàng Pizza

Ta sẽ cần quyết định mở mây sửa hàng và đặt ở nhưng vị trí nào để khác hàng thuận tiện nhất

Bước 1: Nhóm các điểm 4+5

Bước 2: Nhóm các điểm 1+2

Bước 3: Nhóm các điểm 6+7

Bước 4: Nhóm các điểm 6+7 +8

Bước 5: Nhóm các điểm 4+5 +3

Bước 6: Nhóm các điểm 1+2 +3+4+5

Bước 7: Nhóm các điểm 1+2+3+4+5 và 6+7+8 vào 1 cụm. Lúc này tất cả các điểm đã ở cùng 1 cụm và thuật toán kết thúc.

Bây giờ nếu chia các điểm thành 2 cụm ta sẽ cắt theo đường màu xanh và được 2 cụm (1-2-3-4-5) và (6-7-8)

Nếu chia 3 cụm ta sẽ được các cụm là (1-2), (3-4-5) và (6-7-8)

Chia 4 cụm ta sẽ được các cụm là (1-2); (3); (4-5); (6-7-8)

Tương tự ta có thể chia cho đến khi 8 điểm về 8 cụm riêng biệt

Việc xác định khoảng cách để nhóm và tính tâm cụm cũng có nhiều phương pháp, xin phép không được đề cập tại đây

Phân cụm không thứ bậc (K-means)

Ý tưởng là ta sẽ quyết định trước số cụm (chính bằng K)

+ Ban đầu gán cho chúng 1 toạ độ bất kỳ.

+ Bước 1: Với n điểm ta tính khoảng cách đến k tâm cụm ấy. Khoảng cách đến tâm nào nhỏ nhất thì xếp nó vào cụm theo tâm ấy

+ Bước 2: Kết thúc bước này tính lại các tâm cụm theo các điểm nằm trong cụm

+ Tiếp theo ta lặp lại quy trình 2 bước trên đến khi tâm cụm và các phần tử trong mỗi cụm là không thay đổi nữa thì thuật toán kết thúc

 

còn nữa ...

Để xem tiếp các nội dung bên dưới bạn cần phải đăng nhập vào tài khoản đã được phân quyền đọc tương ứng.

Nếu chưa có tài khoản hãy nhấn  ĐĂNG KÝ hoặc ĐĂNG NHẬP nếu bạn đã có tài khoản.

Đăng ký | Quên mật khẩu?

Trang: 1 2 3