Phân biệt Khoa Học Dữ Liệu, Học Máy, Trí Tuệ Nhân Tạo, Thống Kê

Phân biệt Khoa Học Dữ Liệu, Học Máy, Trí Tuệ Nhân Tạo, Thống Kê

(Nguồn: https://www.facebook.com/khoahocvadulieu)

[Tại sao lại có nhiều tên gọi: Khoa Học Dữ Liệu (Data Science), Học Máy (Machine Learning), Trí Tuệ Nhân Tạo (AI), Thống Kê (Statistics)]

Ngày nay, chúng ta dễ dàng bắt gặp được những từ như Khoa Học Dữ Liệu, Học Máy, Trí Tuệ Nhân Tạo, và Thống Kê khi nói về dữ liệu và nói về những “thành tựu” mà con người đạt được trong thời gian gần đây trong mô phỏng trí thông minh con người. Vậy thực sự tại sao lại có nhiều tên gọi vậy?

Là một người từng được học và làm về nhiều lĩnh vực (education lúc undergrad là Toán, lúc Phd là Data Science và Stats, lúc làm sau tiến sĩ là Machine Learning và AI, và hiện tại khi làm giáo sư là làm về các lĩnh vực trên), ad cũng muốn đưa cho bạn một góc nhìn tổng thể một chút về sự giống nhau và khác biệt của các ngành trên:

— Khoa Học Dữ Liệu (Data Science) và Thống Kê (Statistics): Theo ad biết, từ này được Google tạo ra gần đây và quảng cáo để mọi người biết đến tầm quan trọng của dữ liệu trong đời sống. Về cơ bản, Data Science là re-name của một ngành học lâu đời hơn, Thống Kê (Statistics); tuy nhiên đó là một tên chỉnh chu hơn và giúp chúng ta hiểu rõ hơn bản chất của ngành học: “Làm việc và hiểu về bản chất của dữ liệu”.

Về cơ bản, Khoa Học Dữ Liệu và Thống Kê xây dựng nền tảng cho các khái niệm quan trọng chúng ta sử dụng ngày nay khi sử dụng và học dữ liệu, chẳng hạn như kỳ vọng (expectation), phương sai (variance), maximum likelihood estimation (MLE), etc.

Điểm nhấn của Khoa Học Dữ Liệu và Thống Kê truyền thống là về mặt suy diễn (inference), tức là làm sao chúng ta có thể hiểu được tính chất của mô hình, hiểu được khoảng tin cậy của kết quả, hiểu được cách thiết lập những hypothesis testing tin cậy dùng trong thực tiễn, etc.

Một điểm yếu của Khoa Học Dữ Liệu và Thống Kê truyền thống là về mặt tính toán. Hầu hết, các công cụ của các mảng này trước thời kỳ Deep Learning chỉ thiên về mặt suy diễn (inference) và bỏ quên đi mặt tính toán (computation); điều này, cũng dẫn đến nhiều vấn đề khi sử dụng các công cụ từ các mảng này cho dữ liệu hiện tại, vốn dĩ large-scale và high dimension.

— Học Máy (Machine Learning): Chúng ta có thể coi học máy là computational Data Science và Statistics, tức là học máy lấp đầy khoảng trống về mặt computation của Data Science và Statistics. Điểm nhấn quan trọng của học máy là về mặt prediction (dự đoán), tức chúng ta chỉ quan tâm đến label của dữ liệu là gì (mà không cần quan tâm đến độ tin cậy của dự đoán). Ngày nay, học máy tập trung vào việc đưa các khái niệm bên Data Science và Thống Kê, vào các vấn đề thời sự hiện tại của dữ liệu, như Fairness (tính công bằng), Privacy (tính bảo mật), Interpretability (tính diễn giải), etc.

Có thể nói, Học Máy, Khoa Học Dữ Liệu, và Thống Kê bù trừ khiếm khuyết cho nhau. Nếu bạn có thể hiểu được rõ sự tương tác giữa các ngành này, bạn đã có thể tự tin nói rằng mình hiểu về cách xây dựng mô hình và phương pháp với độ tin cậy nhất định khi làm với dữ liệu.

— Trí Tuệ Nhân Tạo (AI): AI là một mảng lớn và nó gồm nhiều mảng nhỏ, chẳng hạn như DS, ML, Stats. Đồng thời, nó cũng bao gồm cả thị giác máy tính (Computer Vision), Natural Language Processing (NLP), etc. Điểm nhấn của AI là làm sao có thể mô phỏng được trí thông minh của con người tốt nhất có thể (bằng bất cứ công cụ gì).

— Chung lại, do có quá nhiều sự trùng lặp giữa các mảng này mà chúng ta nhiều khi sử dụng nhiều tên gọi khác nhau. Tuy nhiên, mình muốn các bạn hiểu rằng, cho dù “label” của ngành học bạn là gì, mục đích cuối cùng là hiểu về dữ liệu và dùng nó để giúp máy tính make better and trustworthy decision (vốn dĩ giống với cách con người chúng ta tiếp cận thông tin và make the decision).

Bình luận về bài viết này