Lấy và làm sạch dữ liệu: Xử lý dữ liệu ngoại lai (Outliers)

Lấy và làm sạch dữ liệu: Xử lý dữ liệu ngoại lai (Outliers)

(Nguồn: https://ongxuanhong.wordpress.com)

Các phần tử ngoại lai (Outliers hay anomalies) có ảnh hưởng lớn đến độ chính xác của các mô hình dự đoán. Phát hiện và xử lý các điểm ngoại lai là một bước quan trọng trong quá trình chuẩn bị dữ liệu cho mô hình dự đoán. Trong bài viết này, ta sẽ tìm hiểu thế nào là điểm ngoại lai trong thống kê cũng như liệt kê một số phương pháp để xử lý các điểm dữ liệu này.

Các điểm ngoại lai là gì?

Hình ảnh ví dụ bên dưới cho ta thấy chỉ cần tồn tại một điểm ngoại lai cũng đã ảnh hưởng đến quá trình khớp (fitting) dữ liệu của mô hình linear regression như thế nào.

Outlier example
Outlier example

Ta thường xem các giá trị ngoại lai như các mẫu dữ liệu đặc biệt, cách xa khỏi phần lớn dữ liệu khác trong tập dữ liệu. Chưa có một định nghĩa toán học cụ thể nào để xác định một điểm ngoại lai. Việc này dẫn đến một bài toán liên quan đến xác định thế nào là một điểm ngoại lai trong quá trình xử lý dữ liệu. Có nhiều phương pháp khác nhau để phát hiện outlier. Một số áp dụng phương pháp đồ thị ví dụ như normal probability plots, một số phương pháp khác dựa trên các mô hình thống kê (model-based).

Ta có các khái niệm sau khi làm việc với outlier

Left outlier

Left outlier
Left outlier

Là điểm ngoại lai có giá trị cực tiểu (extreamly low) trong mẫu quan sát.

Right outlier

Right outlier
Right outlier

Là điểm ngoại lai có giá trị cực đại (extreamly large) trong mẫu quan sát.

Representative outlier

Representative Outlier
Representative Outlier

Là một outlier trong tập dữ liệu. Trong đó, điểm dữ liệu này giả định rằng đã được quan sát đúng (thu thập và ghi chép số liệu chính xác) và các phần tử tương tự nó có thể tìm thấy trong quần thể. Nghĩa là, đây là một đại diện (representative) cho các outlier cùng thể loại khác và thường được giữ lại để phân tích. Ví dụ khi so sánh kích thước các loài động vật trong thiên nhiên, cá voi đại diện cho động vật có kích thước lớn, con chuột đại diện cho động vật có kích thước nhỏ.

Nonrepresentative outlier

Nonrepresentative Outlier
Nonrepresentative Outlier

Là một outlier trong tập dữ liệu. Trong đó, nó chưa được quan sát một cách chính xác (sai sót trong quá trình thu thập và ghi chép dữ liệu) và được xem là duy nhất trong quần thể vì không tồn tại một giá trị nào tương tự như điểm dữ liệu này.

Alpha-trimmed mean

Alpha trimmed mean
Alpha trimmed mean

Alpha là giá trị trung bình của tập dữ liệu. Trong đó, 1/2 alpha trên và dưới của của tập dữ liệu sẽ bị loại bỏ.

Alpha-winsorized mean

Winsorized mean
Winsorized mean

Alpha là giá trị trung bình của tập dữ liệu. Trong đó, 1/2 alpha trên và dưới của tập dữ liệu sẽ được thay thế hoặc chuyển đổi sao cho phù hợp với tập dữ liệu hiện tại. Ví dụ ta có giá trị x1 (nhỏ nhất) đến x10 (lớn nhất). Hai giá trị này sẽ được thay thế bởi hai giá trị gần nó nhất là x2 và x9.

Làm thế nào để phát hiện các điểm ngoại lai?

Có một vài hướng tiếp cận để phát hiện các điểm ngoại lai. Trong cuốn sách Outlier Analysis của Charu Aggarwal, tác giả phân loại các mô hình phát hiện các điểm ngoại lai thành các nhóm như sau:

  • Extreme Value Analysis (phân tích giá trị cực hạn): đây là dạng cơ bản nhất để phát hiện các điểm ngoại lai và chỉ tốt cho dữ liệu 1 chiều. Trong mô hình phân tích này, ta giả định các giá trị nào quá lớn hay quá nhỏ đều là ngoại lai. Các phương pháp Z-test và Student’s t-test là ví dụ cho các mô hình thống kê này. Tuy nhiên, mô hình này không thật sự mạnh khi phân tích trên các điểm dữ liệu nhiều chiều (multivariate). Mô hình này thường được sử dụng ở bước cuối trong quá trình diễn giải kết quả nghiên cứu và phân tích.
  • Probabilistic and Statistical Models: ta áp đặt một phân bố cụ thể cho tập dữ liệu (normal distribution, Bernoulli distribution, poisson distribution, ..). Sau đó, ta sử dụng phương pháp expectation-maximization(EM) để ước lượng tham số cho các mô hình thống kê này. Cuối cùng, ta tính xác suất cho các phần tử thuộc tập dữ liệu ban đầu. Các phần tử nào có xác suất thấp sẽ được cho là điểm ngoại lai.
  • Linear Models: phương pháp này chuyển đổi tập dữ liệu ban đầu sang không gian ít chiều hơn (sub-space) bằng cách sử dụng tương quan tuyến tính (linear correlation). Sau đó, khoảng cách của từng điểm dữ liệu đến mặt phẳng ở không gian mới sẽ định tính toán. Khoảng cách tính được này được dùng để tìm ra các điểm ngoại lai. PCA (Principal Component Analysis) là ví dụ của linear models để xác định các điểm ngoại lai.
  • Proximity-based Models: ý tưởng của phương pháp này là mô hình hóa các điểm ngoại lai sao cho chúng hoàn toàn tách biệt (isolated) khỏi toàn bộ các điểm dữ liệu còn lại. Cluster analysis, density based analysis và nearest neighborhood là các hướng tiếp cận chính của phương pháp này.
  • Information Theoretic Models: ý tưởng của phương pháp này là dựa trên nguyên lý các điểm ngoại lai sẽ làm tăng giá trị minimum code length khi mô tả tập dữ liệu.
  • High-Dimensional Outlier Detection: phương pháp đặc biệt để xử lý các tập dữ liệu nhiều chiều và rời rạc (high dimensional sparse data). Ví dụ, ta có phương pháp High Contrast Subspaces for Density-Based Outlier Ranking (HiCS).

Bình luận về bài viết này