Các sai sót & thiên lệch thường gặp khi xử lí dữ liệu tài chính

Các sai sót & thiên lệch thường gặp khi xử lí dữ liệu tài chính

(Tác giả: minhphc – Nguồn: vfpress.vn)

dataerror

(Vfpress.vn) Mới đây, giới kinh tế thế giới một phen nổi sóng khi nghiên cứu nổi tiếng về quan hệ nợ công/GDP với tăng trưởng kinh tế của Carmen Reinhart và Kenneth Rogoff bị phát hiện có sai sót cực lớn. 1 trong những sai sót đó là một lỗi đặt nhầm công thức excel đã khiến 5 nước có tên đầu tiên trong bảng chữ cái bị loại khỏi phép tính giá trị trung bình trong giai đoạn 1946-2009. Đây là 1 trong những sai sót cơ bản khi làm nghiên cứu kinh tế có sử dụng dữ liệu quá khứ. Sai sót khi thu thập, xử lí dữ liệu (Transcription errors) này là nặng nhất & vô phương cứu chữa. Nói 1 cách bóng bẩy là “ Garbage in, gargage out”. Ngoài lỗi transcription errors như trên, sai sót về dữ liệu còn có thể gặp phải ở những dạng sau:

Survivorship bias: (Thiên lệch kẻ sống sót) loại bias này xảy ra khi chuỗi dữ liệu chỉ phản ánh những cá thể còn tồn tại trong 1 giai đoạn nghiên cứu. Lỗi này thường gặp nhất khi thống kê performance quá khứ của hedge funds. Khi 1 HF thua lỗ sập tiệm, nó bị loại ra khỏi cơ sở dữ liệu. Vì vậy database chỉ toàn chứa những thằng còn sống sót, chưa bị đào thải & đưa ra 1 bức tranh tốt đẹp hơn thực tế về lợi nhuận của các HF.

Smoothed data: 1 số tài sản thanh khoản kém, không có dữ liệu giao dịch hàng ngày nên khi sử dụng, người ta phải làm mượt dữ liệu. Các index của bất động sản như NCFEIF thường cung cấp các dữ liệu đã làm mượt, kết quả là nó đã understatement biến động thực tế của thị trường.
Ngoài các lỗi về thu thập dữ liệu, các analysts còn hay gặp các lỗi về phương pháp phân tích dữ liệu như sau:

Data-mining bias: bạn tin rằng chỉ số Vnindex sẽ có mối tương quan nào đó với số người vào đọc bài ở Vfpress hàng ngày. Vì vậy bạn cố gắng đào bới dữ liệu, tìm cho bằng được mô hình kinh tế lượng nào đó để giải thích tương quan giữa chỉ số Vni & page view Vfpress.vn. Nhưng nếu chỉ có kết quả thống kê mà không có lí luận kinh tế logic nào để support cho mô hình thì bạn đã bị lỗi data-mining bias.

Time-period bias: Các bác hãy tin tưởng giao tiền cho e quản lí hộ, tính từ đầu năm 2009 đến nay suất sinh lời của e là 70%. ( Nhưng e không tiết lộ rằng e bắt đầu mua cổ phiếu từ năm 2007, tính từ đó đến nay suất sinh lời vẫn còn âm nặng). Như vậy suất sinh lời e đi quảng cáo quá nhạy cảm với thời điểm chọn làm mốc tính, vì vậy không phản ánh đúng kĩ năng trading của e. (giao tiền e quản lí đảm bảo chỉ có hoà vốn đến lỗ, welcome )Lỗi này gọi là time-period bias.

————&&————

Gửi phản hồi

Mời bạn điền thông tin vào ô dưới đây hoặc kích vào một biểu tượng để đăng nhập:

WordPress.com Logo

Bạn đang bình luận bằng tài khoản WordPress.com Log Out / Thay đổi )

Twitter picture

Bạn đang bình luận bằng tài khoản Twitter Log Out / Thay đổi )

Facebook photo

Bạn đang bình luận bằng tài khoản Facebook Log Out / Thay đổi )

Google+ photo

Bạn đang bình luận bằng tài khoản Google+ Log Out / Thay đổi )

Connecting to %s

%d bloggers like this: