Làm sạch dữ liệu

This entry is part 5 of 8 in the series SPSS cơ bản

Cập nhật: 18/12/2021 bởi admin0

Trước khi đưa dữ liệu vào phân tích trên bất phần mềm nào, không nhất thiết là SPSS ta đều cần phải làm sạch dữ liệu

Tài liệu mang tính định hướng. Nếu các kỹ thuật không được trình bày cụ thể các bạn có thể google thêm.

Xem thêm: Tự học SPSS

Tại sao cần làm sạch dữ liệu

Đơn giản vì dữ liệu trong quá trình thu thập/ nhập liệu/….có thể có những sai sót, ẩn chứa các giá trị, thậm chí là các quan sát không phù hợp để đưa vào phân tích. Nếu để lại các quan sát/ giá trị sai đó có thể gây ảnh hưởng đến kết quả nghiên cứu hoặc quá trình phân tích dữ liệu.

Ví dụ về dữ liệu chưa sạch và hậu quả

Tuỳ trường hợp mà hậu quá có thể nghiêm trọng hoặc ít nghiêm trọng, hoặc có thể không có hậu quả

STT Lỗi Hậu quả
1 Bạn thực hiện nghiên cứu hành vi của phái nữ nhưng có đap viên là nam vẫn trả lời Gây sai lệch két quả
2 Bạn nhập thiếu giá trị nào đó lên bảng tính, hoặc do lỡ tay mà xoá mất Gây sai lệch két quả (nếu không phát hiện ra) hoặc tạo ra 1 kết quả khập khiễng (ví như 100 người dầy đủ các thông tin, duy đến yếu tố tuổi lại có 1 người không xác định- làm xấu cả một bảng kết quả)
3 Nhập nhầm. Ví dụ quy ước nam =1, nữ =2 nhưng không hiếm khi bạn gõ 1 thành 11 Cái này không nghiêm trọng lắm. Khi phân tích bạn vẫn có thể tìm và sửa
4 Có nhiều dòng hoàn toàn trống trong bảng dữ liệu Gây tăng bộ nhớ và khó chiệu khi các dòng thống kê xuất hiện missing. Trên AMOS một bảng dữ liệu như thế sẽ bị phần mềm báo lỗi khi ước lượng

Một số kỹ thuật phát hiện điểm dữ liệu “chưa sạch”

Các bạn hoàn sử dụng linh hoạt các kỹ thuật bên dưới nhé. Chú ý trước khi làm cần tạo ra 1 cột ghi số thứ tự các quan sát để sau khi đảo bộ data lên ta có thể đưa chúng về vị tria ban dầu

Xem thêm: Dịch vụ mã hoá dữ liệu trên SPSS

Trên excel

+ Săp xếp dữ liệu từ lớn đến nhỏ hoặc từ nhở đên lớn. Lúc này các giá trị khuyết sẽ bị dồn xuống dưới cùng

+ Chọn các cột cần lọc và nhấn Crtl + L, sau đó tiến hành lọc data theo từng côt. Cuối cùng copy ra một bảng mới. Đây là kỹ năng tin học văn phòng cơ bản.

Trên SPSS

+ Thống kê tần số để xem các giá trị “sai” trong bảng. Thử tuc Analyze > Frequency

+ Lập bảng chéo để xem các quan sát thiếu logic. Ví dụ 1 người 40 tuổi có nghề nghiệp là học sinh- sinh viên thì rõ ràng đây là 1 quan sát có vấn đề. Xem thử tục lập bảng chéo tại:

Khắc phục

Cách 1: Xoá

Bạn thực hiện nghiên cứu hành vi của phái nữ nhưng có đap viên là nam vẫn trả lời. Đoan giản là xoá các quan sát mà đáp viên là nam đi

Cách 2: sửa

Ví dụ quy ước nam =1, nữ =2 nhưng không hiếm khi bạn gõ 1 thành 11. Vậy đơn gainr là giời ta sẽ sửa 11 thành 1

Cách 3: Sửa nhiều

Nếu các lỗi là rât nhiều và lặp lại thì trên excel có thể dùng đến Find All và Repalce All

Cách 3: Bổ sung dữ liệu

Bạn có thể tra lại theo sô phiếu và điền thêm thông tin

Series Navigation<< Nhập dữ liệu từ Excel vào SPSSLựa chọn quan sát với menu Select Case >>