Sử dụng hệ số tương quan Pearson khi nào

This entry is part 10 of 18 in the series Tương quan giữa hai biến định lượng

Cập nhật: 07/05/2024 bởi admin0

Có thể nói hệ số tương quan r là hệ số tương quan phổ biến nhất. Khi nghĩ đến việc xem xét mối tương quan giữa các biến số định lượng thì hầu như ai cũng nghĩ đến hệ số này đầu tiên. Quả thực hệ số này để phán đoán rất tốt mà chưa cần chú ý quá đến dạng hàm các biến thực sự phụ thuộc nhau.

Lấy ví dụ nếu X và Y tương quan tuyến tính với nhau thì nhiều khả năng X cũng sẽ tương quan với: Y^2, Y^3, căn bậc 2 của Y, log(Y), 1/Y,…

Tuy nhiên không phải lúc nào hệ số này cũng là tối ưu

  • Hệ số r được tính toán với giả định là phân phố của 2 biến là chuẩn. Tuy nhiên trên thực tế ta thường không cần quan tâm điều này.
  • Chỉ nên tính toán với cỡ mẫu lớn. Bình thường các nghiên cứu của các bạn với cỡ mẫu trên dưới 100 trở lên thì cứ áp dụng là OK rồi (30 trở lên là đã có thể dùng được rồi)
  • Khi cỡ mẫu nhỏ ta nên tham khảo/ sử dụng các chỉ số tương quan khác, sẽ được đề cập ngay sau bài viết này. Đó là tương quan hạng Spearman và tương quan hạng Kendall (đặc biệt các cỡ mẫu nhỏ tầm 20-30 trở xuống)
Series Navigation<< Giá trị sig trong bảng hệ số tương quan PearsonTương quan hạng Spearman >>