So sánh phân tích tương quan và phân tích hồi quy

This entry is part 5 of 25 in the series Hồi quy tuyến tính

Cập nhật: 15/09/2022 bởi admin0

Đừng nhầm lẫn tương quan và hồi quy trong SPSS

Trước hết chồng bài viết này mình sẽ trình bày hai khái niệm mà các bạn rất dễ dàng bị nhầm lẫn đó là tương quan giữa hai biến và hàm hồi quy hay biến (hay còn gọi là hồi quy đơn biến)
Xin nhắc lại các kiến thức cơ bản như sau để chúng ta tiện theo dõi

Tương quan giữa hai biến định lượng

Theo định nghĩa, hệ số tương quan r giữa 2 biến x, y được tính bằng công thức sau

Như vậy r chính là hiệp phương sai của 2 biến đã được chuẩn hóa.

  • Hệ số tương quan có giá trị từ -1 đến 1.
  • Hệ số tương quan bằng 0 (hay gần 0) có nghĩa là hai biến số không có liên hệ gì với nhau.
  • Nếu hệ số bằng -1 hay 1 có nghĩa là hai biến số có một mối liên hệ tuyệt đối.
  • Nếu giá trị của hệ số tương quan là âm (r <0) có nghĩa là khi x tăng cao thì y giảm (và ngược lại, khi x giảm thì y tăng). Nếu giá trị hệ số tương quan là dương (r > 0) có nghĩa là khi x tăng cao thì y cũng tăng, và khi x tăng cao thì y cũng tăng theo.
  • Giá trị tuyệt đối của r> 0,9 thì mối liên hệ rất chặt chẽ.
  • Giá trị tuyệt đối của trong khoảng 0,7 đến 0,9 thì mối liên hệ tương đối chặt chẽ.
  • Giá trị tuyệt đối của r trong khoảng 0,5 đến 0,7 thì mối liên hệ bình thường (trong dự đoán thường không sử dụng r này đối với tiêu thức số lượng nhưng với tiêu thức thuộc tính thì vẫn sử dụng).
  • Giá trị tuyệt đối của r < 0,5 : Mối liên hệ hết sức lỏng lẻo.

So sánh giữa tương quan pearson và hồi quy đơn biến

+ Điểm khác biệt duy nhất đó là trong hồi quy thì xác định vai trò biến độc lập và phụ thuộc, còn trong phân tích tương quan thì 2 biến là độc lập

+ Không nhất thiết phải thực hiện hồi quy đơn biến ta cũng có thể suy ra nhiều chỉ số từ phân tích tương quan

Ví dụ như

* r (pearson)= R (hồi quy), do đó R bình phương của mô hình hôi quy bằng r^2 (bình phương hệ số tương quan)

* r đúng bằng hệ số hồi quy chuẩn hoá của biến độc lập

* p-value của hệ số tương quan đúng bằng pvalue của thống kê F và thống kê t (của biến độc lập)

Còn hồi quy đa biến thì khỏi phải nói vì chúng có sự xuất hiện của nhiều biến độc lập

Tương quan và hồi quy khác nhau như thế nào?

Trước hết phải khẳng định phân tích hồi quy là một phân tích nhân quả trong đó biến nguyên nhân là một hoặc nhiều biến độc lập có tác động đến biến phụ thuộc hay còn gọi là biến kết quả điều này nghĩa là nếu các biến độc lập có sự biến đổi thì điều đó sẽ gây ra sự biến đổi kéo theo đối với biến phụ thuộc
Còn với phân tích tương quan thì hai biến này không chắc có quan hệ nhân quả với nhau hay không mà hoàn toàn có thể là sự ngẫu nhiên hoặc lại cùng bị tác động bởi một biến khác gây ra sự biến thiên cùng nhau mà việc biến này bị biến đổi không làm biến kia bị thay đổi theo

Video đề xuất

Cùng giải trí một chút với video bên dưới nhé chúng ta sẽ thấy rằng mối quan hệ giữa thời tiết và sản lượng kem bán ra hay thời tiết và số người bị cá mập cắn có quen là quan hệ nhân quả cụ thể thì thời tiết nóng người ta sẽ ăn kem nhiều hơn thời tiết nóng người ta sẽ đi bơi nhiều và tất nhiên là số lượng người bị cá mập tấn công cũng sẽ nhiều hơn
Khi thời tiết không còn nóng nữa thì ngay lập tức số lượng kem tiêu thụ sẽ giảm cũng như số lượng người đi bơi sẽ giảm và do đó số người bị cá mập tấn công cũng sẽ giảm đi
Tuy nhiên sản lượng kem và số người bị cá mập tấn công thì chỉ là có tương quan ngẫu nhiên mà thôi giả sử như vì một lý do nào đó ví dụ vấn đề an toàn vệ sinh thực phẩm mà nhà chức trách hạn chế số lượng kem bị tiêu thụ ra thì nó cũng chẳng ảnh hưởng gì đến số người đi bơi tức là cũng chẳng ảnh hưởng gì đến số người bị cá mập tấn công cả ngược lại những nước không có biển không có ai đi bơi thì sao người ta vẫn tiêu thụ kem bình thường đúng không

Tại sao tương quan và hồi quy hay bị nhầm lẫn

Điều này thì có lẽ do các tính chất của phân tích tương quan giống với những tính chất của phân tích hồi quy đơn biến (xem lại phía trên) cho nên trong những trường hợp lẽ ra phải dùng phân tích hồi quy đơn biến thì rõ ràng sử dụng một phân tích tương quan trên spss sẽ nhanh hơn rất nhiều. Ví dụ bạn có một bến phụ thuộc vào 10 biến độc lập nếu như chạy tương quan thì rõ ràng bạn chỉ cần đưa tất cả vào chạy một lần là xong. Tuy nhiên nếu như chạy hồi quy đơn biến thì bạn phải thực hiện đi thực hiện lại 10 lần rõ ràng là rất mất thời gian

Series Navigation<< Mô hình hồi quy đơn biến và đa biếnThực hành hồi quy tuyến tính trên SPSS >>