“Over-fitting” và ý nghĩa thực tế trong đời sống

“Over-fitting” và ý nghĩa thực tế trong đời sống

(Tác giả: Nguyễn Văn Tuấn – Nguồn: http://tuanvannguyen.blogspot.com)

Không nói ra thì ai cũng biết chuyện hôn nhân là chuyện hệ trọng. Vì tính hệ trọng của nó nên đòi hỏi người ta phải suy nghĩ cẩn thận. Nhưng một vấn đề  trong thống kê học vàmachine learning có tên là “over-fitting” (1) khuyên bạn không nên suy nghĩ nhiều quá. Trong cuốn sách “Algorithms to live by” tác giả bàn về ý nghĩa của over-fitting trong việc chọn người bạn đời, thói thần tượng hoá, kĩ nghệ luyện gà đá, tiến hoá và thực phẩm, và ở đây tôi tóm lược vài ý chính như là một giải trí cuối năm cho các bạn.

“Đại số đạo đức”

Nhà tiến hoá học Charles Darwin là một người rất cẩn thận. Trước khi đi đến quyết định thành hôn, ông ngồi xuống suy tính và cân nhắc lợi và hại của hôn nhân, và những suy nghĩ này được viết xuống trong cuốn nhật kí năm 1838. Ông liệt kê những lợi ích của hôn nhân như có người đồng hành trong đời, có người chit-chat như nghe nhạc, và có người chăm sóc khi về già. Nhưng ông cũng nghĩ đến những điều bất lợi của hôn nhân như mất thì giờ ghê gớm, mất tự do đi đây đó mà ông muốn, thêm lo lắng bởi con cái, và có ít tiền hơn để … mua sách (Hình 1). Tất cả chỉ giới hạn trong 1 trang giấy.

Hình 1: Nhật kí của Charles Darwin cân nhắc lợi và hại của hôn nhân

Cuối cùng, ông quyết định thành hôn, và ông viết xuống kết luận này bằng kí hiệu QED mà có lẽ nhiều người trong chúng ta đều biết. Ông thành hôn với người em họ là Emma Wedgwood vào ngày 29/1/1839. Hai người có đến 10 người con. Có thể nói là một cuộc hôn nhân thành công.

Những suy nghĩ và cân nhắc của Darwin có thể xem là một sự tính toán. Benjamin Franklin gọi những “tính toán” định tính là “Moral Algebra” — đại số đạo đức. Nhiều người trong chúng ta có lẽ nghĩ rằng những quyết định quan trọng trong đời cần phải dựa vào đại số đạo đức càng nhiều càng tốt. Thoạt đầu mới nghe qua thì cũng có lí, vì đúng là suy nghĩ càng nhiều, chúng ta càng có nhiều lựa chọn và từ đó đi đến quyết định tối ưu. Nhưng trong thực tế thì không hẳn như thế: suy nghĩ nhiều chưa chắc đã tốt.

Over-fitting là gì?

Để hiểu vấn đề này, chúng ta có thể xem việc cân nhắc của Darwin như là một cách mô hình dữ liệu. Mô hình dữ liệu có nghĩa là tìm phương trình để mô tả các mối tương quan dựa trên dữ liệu thực tế, mà tiếng Anh gọi là “model fitting”. Có nhiều mô hình có thể sử dụng để mô tả một mối liên quan. Vấn đề là làm sao tìm mô hình tốt nhất. Nếu mối liên quan cần 2 tham số, mà mô hình dùng 1 tham số thì được gọi là under-fitting; nhưng nếu mô hình dùng đến 5 tham số thì sẽ xảy ra tình trạng over-fitting. Tương tự, suy nghĩ nhiều quá sẽ dẫn đến over-fitting, hay nói theo ngôn ngữ dân gian là “tẩu hoả nhập ma.”

Có thể minh hoạ cho vấn đề over-fitting qua một ví dụ về mối tương quan giữa mức độ hài lòng trong cuộc sống và thời gian 10 năm sau thành hôn. Các nhà nghiên cứu tâm lí học thực hiện một nghiên cứu trên một số cặp vợ chồng và hỏi họ về sự hài lòng trong đời sống sau khi thành hôn (1), và biểu đồ dưới đây (Hình 2) trình bày mối tương quan đó. Nhưng có thể thấy, nhìn chung thì mức độ hài lòng suy giảm theo thời gian, nhưng mối liên quan với thời gian không hẳn tuân theo phương trình đường thẳng. Trong 3 năm đầu, mức độ suy giảm khá nhanh, nhưng sau đó tăng trong năm thứ 4 và 5; sau 5 năm thành hôn thì mức độ hài lòng lại suy giảm nữa.

Hình 2: mối liên quan giữa mức độ hài lòng trong cuộc sống và thời gian sau thành hôn

Vấn đề của chúng ta là tìm một phương trình (hay mô hình) tốt nhất để mô tả mối liên quan đó. Gọi mức độ hài lòng là y, và thời gian sau thành hôn là t, mô hình đơn giản nhất là hồi qui tuyến tính đơn giản (tức chỉ có 1 tham số) dưới dạng y = a + b*t (trong đó a là điểm khởi đầu, và b là tham số liên quan đến t). Mô hình này mô tả khá tốt mối liên quan (xem Hình 3, đường đứt đoạn). Mô hình này giải thích được 90% sự khác biệt của dữ liệu.

Hình 3: mối liên quan giữa mức độ hài lòng trong cuộc sống và thời gian sau thành hôn được mô tả qua 3 mô hình: tuyến tính (one-factor model); đa thức bậc 2 (two-factor model); và mô hình đa thức bậc 9.

Nhưng vì trong thực tế mức độ hài lòng tăng vào năm thứ 4-5 và giảm sau đó, nên có lẽ mô hình tốt hơn là mô hình đa thức bậc hai, hay nói trắng ra là phương trình bậc hai: y = a + b*t + c*t^2 (trong đó t^2 là t bình phương và c là tham số mới liên quan đến t^2). Mô hình 2 tham số này (đường đứt đoạn dài) quả thật tốt hơn mô hình tuyến tính 1 tham số. Nhưng mô hình 2 tham số này giải thích được 93% phương sai của y, tức là vẫn còn 7% chưa giải thích được.

Nhưng chúng ta thử “thừa thắng xông lên” tìm mô hình giải thích 100% phương sai của y xem sao. Với máy tính và chương trình R, chỉ cần 2 phút là chúng ta đã có mô hình 9 tham số có thể giải thích gần 100% phương sai của y. Mô hình này thật là tốt, tốt nhất so với hai mô hình đơn giản kia.

Nhưng chúng ta đừng quên rằng một mục đích khác của mô hình hoá dữ liệu là tiên lượng — tiên lượng tương lai. Tương lai là cái mà chúng ta chưa quan sát được. Câu hỏi là 3 mô hình trên (1 tham số, 2 tham số, và 9 tham số) thì mô hình nào dự báo tốt nhất cho năm 11, 12, v.v.  Không ngạc nhiên khi mô hình 1 tham số tiên lượng mức độ hài lòng tiếp tục giảm trong năm 11, còn mô hình 2 tham số cũng tiên lượng giảm nhưng giảm một chút thôi.  Nhưng điều kì lạ là mô hình 9 tham số tiên lượng rằng năm thứ 11 sau thành hôn thì mức độ hài lòng giảm như là xe hơi lao dốc xuống núi! Đành rằng mức độ hài lòng có thể suy giảm, nhưng không thể nào giảm đột ngột như mô hình 9 tham số dự báo như thế. Có cái gì nghịch lí ở đây: mô hình giải thích nhiều dữ liệu nhất lại là mô hình tiên lượng tồi nhất!

Thật ra, “hiện tượng” mà mô hình giải thích mối tương quan tốt nhất nhưng tiên lượng tồi nhất không phải là mới, vì nó đã được các nhà khoa học thống kê học phát hiện từ xưa (thời Mosteller) và đặt tên là over-fitting. Đối nghịch với over-fitting là under-fitting. Mô hình hồi qui tuyến tính 1 tham số được xem là under-fitting. Mô hình 9 tham số được gọi là over-fitting. Có lẽ mô hình đa thức bậc 2 là tối ưu nhất. Tôi nói “có lẽ” là vì chúng ta chưa làm xét nghiệm để xác định mô hình nào là tối ưu; chúng ta mới dùng cảm quan và trực giác mà thôi.

“Mặc áo” cho dữ liệu

Như vậy, over-fitting xảy ra khi mô hình có nhiều tham số hơn cần thiết. Tình trạng này cũng giống y chang việc chọn quần áo. Nếu quần áo quá chật hay quá rộng đều tạo ấn tượng không tốt, mà còn bất tiện. Nhưng chọn quần áo vừa thân hình một cá nhân, ngoài sở thích cá nhân, còn là một nghệ thuật. Do đó, việc mô hình dữ liệu khoa học cũng có thể ví von như là mặc áo cho dữ liệu.

Với cách ví von đó, tôi nghĩ có thể xem nhà thống kê học như là người thợ may. Người thợ may, trước khi tiến hành cắt vải, phải đo lường cẩn thận (hay nói theo ngôn ngữ nhà nghề là lấy ni, tấc) để có thể cắt vải đúng kích thước. Nhà thống kê học cũng như thế: trước khi chọn mô hình cho dữ liệu, họ phải xem xét phân bố của dữ liệu, đơn vị đo lường, chuẩn hoá dữ liệu (standardization), và đánh giá các mối liên quan, trước khi chọn mô hình thích hợp. Các thông số của bộ quần áo chính là tham số của mô hình thống kê. Cái software để ước tính tham số chính là cái máy may.

Nhưng người thợ may có kinh nghiệm còn phải xem xét đến khía cạnh thẩm mĩ, họ phải nhìn người khách hàng, cân nhắc giữa sắc diện và cấu trúc thân thể, để đi đến màu sắc của vải, chọn chất liệu, để sau cùng có một bộ đồ không chỉ vừa vặn mà còn thanh nhã. Tương tự, nhà thống kê học có kinh nghiệm còn phải quan tâm đến cách trình bày dữ liệu một cách đẹp đẽ và trang nhã qua thiết kế biểu đồ. Biểu đồ phải có phẩm chất tốt, có màu sắc và font chữ ai cũng đọc được (chứ không phải loại biểu đồ Excel). Nhà thống kê học còn phải quan tâm đến ý nghĩa của kết quả phân tích (chứ không chỉ cho ra những kết quả vô nghĩa). Cái khác biệt giữa một nhà khoa học và một kĩ thuật viên là ở chỗ này: nhà khoa học phải hiểu biết ý nghĩa của kết quả phân tích, còn kĩ thuật viên thì chỉ quan tâm đến sự chính xác và mẹo tính toán nhanh hơn. (Ở đây, không nói ai quan trọng hơn ai, vì cả hai đều quan trọng).

Ý nghĩa cuộc sống của over-fitting

Tình trạng này cũng giống như suy nghĩ nhiều quá có thể giúp chúng ta giải thích được những gì mình quan sát trong quá khứ (và hiện tại), nhưng nó không hẳn giúp ích chúng ta trong quyết định cho tương lai mà có thể làm cho tình hình rối lên. Nhưng under-fitting thì lại bỏ sót và tiên lượng kém chính xác. Thành ra, nghệ thuật của mô hình hoá các mối liên quan là tìm một mô hình không có quá nhiều tham số mà cũng không có quá ít tham số. Nghệ thuật này cũng là nghệ thuật sống: tìm cách sống trung dung.

Đọc đến đây có lẽ các bạn “có tuổi” cỡ thế hệ thôi nghĩ ngay đến thuyết “Trung dung” của Tử Tư. Trong sách “Trung dung”, Tử Tư khuyên người quân tử nên giữ cách sống trung hòa, không thái quá. Do đó, tôi nghĩ mô hình tốt nhất trong khoa học cũng giống như mẫu người “quân tử” của Tử Tư vậy. Người quân tử hành xử giữ thế trung bình giữa hai thái cực, thì mô hình tốt cũng chính là mô hình nằm giữa hai thái cực qua đơn giản và quá phức tạp.

Over-fitting có ý nghĩa trong vấn đề sùng bái thần tượng mà tiếng Anh họ gọi là idolatry. Vào thời xa xưa, người ta sùng bái thần thánh và nặn tượng cho họ. Dù chỉ là đất sét thôi, nhưng dân chúng ai cũng vái lạy vì người ta nghĩ các tượng đất sét này là biểu tượng của thần linh. Trong các thể chế toàn trị như Cuba và Romania, chúng ta hay thấy nạn sùng bái thần tượng, mà theo đó người dân được dạy và buộc phải xem họ như là thần thánh, là cha mẹ dân tộc.  Sùng bái thần tượng giúp cho người ta cảm thấy thoải mái vì có cảm hứng và có người để cầu cạnh (và cầu nguyện) nhưng nó làm người ta quên đi hiện tình. Sự sùng bái thần tượng là một hình thức của over-fitting trong đời sống tâm linh. Over-fitting cũng giống như là một hình thức thần tượng hoá dữ liệu (dân trong nghề gọi là “data idolatry”), và đó cũng là hệ quả của việc tập trung thái quá vào những gì chúng ta có thể đo lường được, nhưng thiếu tập trung vào vấn đề.

Tình trạng over-fitting còn có thể giải thích tại sao những thực phẩm ngon miệng [nói chung] lại có hại cho sức khoẻ. Những chất dinh dưỡng cơ bản như đường, muối, mỡ đều rất cần thiết cho sự tiến hoá của nhân loại qua hàng triệu năm, nhưng ngày nay lại có tác hại đến sức khoẻ con người. Ăn nhiều muối có thể làm tăng huyết áp, và dẫn đến mấy bệnh tim mạch nguy hiểm. Ăn nhiều mỡ và đường thì khói nói ai cũng biết là có hại cho sức khoẻ. Ngày xưa, khi thực phẩm khan hiếm, thì những chất dinh dưỡng đó là những “luxury” của cuộc sống, và chúng là biểu tượng của cách ăn uống lành mạnh. Nhưng khi công nghệ chế biến hoàn thiện thì các chất dinh dưỡng đó trở nên thừa thải và con người tiêu thụ như không có ngày mai — một hiện tượng tiêu thụ thái quá. Thế là từ những “good guys”, các chất dinh dưỡng đó và nhiều thực phẩm khác được xem là “bad guys” trong cuộc sống hiện đại.

Over-fitting cũng có thể giải thích tại sao VN đứng hạng cao trong PISA hay các kì thi Olympic, mà hệ thống giáo dục bị chính người trong nước đánh giá thấp. Ở Việt Nam không chỉ có kĩ nghệ dạy và học thêm (ngoài giờ), mà còn có hẳn những chương trình luyện thi để chiếm các giải thưởng quốc tế.  Đó là những chương trình dạy và học tủ để chuẩn bị cho những kì thi có cấu trúc cố định. Chiến lược tập trung vào một nhóm nhỏ và một số môn học giúp cho Việt Nam có nhiều giải thưởng quốc tế, nhưng đứng trên bình diện quần thể thì đa số học sinh không hưởng lợi gì đáng kể từ những kĩ nghệ đó. Chiến lược luyện gà chọi cũng giống như tập trung tìm một mô hình nhằm giải thích các mối liên quan phức tạp trong một môi trường có kiểm soát, nhưng khi ứng dụng mô hình cho tương lai hay cho một quần thể lớn thì mô hình đó hoàn toàn thất bại. Đó chính là sự thất bại của  ứng dụng một mô hình over-fitting cho một quần thể độc lập. Tình trạng over-fitting cũng giải thích tại sao việc nhồi nhét kiến thức cho học sinh, sinh viên không hẳn là tốt cho tương lai của họ, và giải thích tại sao sinh viên VN có thể học tốt ở bậc thấp, nhưng càng lên cao thì sinh viên VN càng kém.

Các bạn có thể nghĩ thêm về ý nghĩa của over-fitting trong các khía cạnh đời sống chính trị – xã hội khác, kể cả trong quyết định hôn nhân. Hôn nhân, nói cho cùng là một thí nghiệm tình cảm xã hội. Cái khó của thí nghiệm này là có quá nhiều thông tin mà chúng ta chưa có phương tiện để đo chính xác, và có khá nhiều nhiễu. (Chẳng hạn như làm sao chúng ta đo lường chính xác được sự hài lòng của “đối tượng”. Trong cuộc cạnh tranh tình cảm thì có khá nhiều yếu tố nhiễu làm chúng ta mất tập trung.) Trong điều kiện nhiễu thông tin và thiếu chính xác, mô hình rất dễ trở nên over-fitting.  Nói cách khác, chúng ta không nên suy nghĩ nhiều quá trước quyết định hôn nhân.

Nếu không suy nghĩ nhiều quá thì suy nghĩ ít? Không phải. Một cách khắc phục tình trạng over-fitting là suy nghĩ có kiểm soát, có định hướng. Nói theo ngôn ngữ thống kê học là mô hình cần phải có yếu tố để kiểm soát các tham số, không có chúng quá lạc quan, và mô hình đó có tên chung là ” regularized model” (2). Nhưng có lẽ giải pháp thực tế hơn là suy nghĩ theo mô thức có tên phức tạp là “heuristics”, có thể hiểu là “xấp xỉ”. Nhà tâm lí học Daniel Kahneman gọi đó là “suy nghĩ nhanh” mà tôi có lần điểm sách “Thinking, fast and slow”. Trong tình huống phức tạp, đa yếu tố, phương pháp suy nghĩ nhanh, ngạc nhiên thay, có hiệu quả diệu kì. Lí thuyết này (heuristics) đã từng đem lại giải Nobel cho nhà kinh tế Harry Markowitz năm 1990. Markowitz cho biết khi đối đầu với tình huống quá phức tạp, ông tìm cách suy nghĩ xấp xỉ heuristics.

Quay lại vấn đề quyết định hôn nhân, bài học từ “over-fitting” là đừng suy nghĩ nhiều quá, mà suy nghĩ trung dung thôi. Suy nghĩ trung dung là dùng ít thông tin hơn nhưng và thông tin có chất lượng cao (gọi là substantial data) nhưng vẫn đạt được độ chính xác tốt.  Trường hợp của Darwin mà tôi đề cập trong phần đầu minh chứng cho điều này. Cái yếu tố quan trọng nhất trong phân tích của Darwin là ông thấy trước một viễn ảnh chỉ làm việc, làm việc, và làm việc mà không có con cái hay “người đồng hành” chia ngọt xẻ bùi, còn yếu tố có ít tiền hơn để mua sách chỉ là yếu tố nhiễu mà thôi.

Ngoài ra, việc giới hạn những cân nhắc trong 1 trang giấy có nghĩa là Darwin cũng áp dụng nguyên tắc kiểm soát (mà ông có thể không biết) trước khi đi đến quyết định sau cùng, và quyết định đó hoá ra rất tốt. Xin nhắc lại bài học quan trọng là: khi đứng trước một tình huống phức tạp với nhiều thông tin, đặc biệt là thông tin nhiễu, suy nghĩ ít theo hướng tiết kiệm là phương án tốt nhất.

====

(1) Vấn đề over-fitting sẽ được bàn trong workshop sắp tới về machine learning ở ĐH TĐT. Chúng ta sẽ bàn về ý nghĩa của over-fitting trong các mô hình phổ biến trong khoa học với vài ví dụ thú vị.

(2) Nhưng đây là chủ đề khác mà chúng tôi sẽ bàn trong khoá học Machine Learning vào tháng 1 tới đây.

————&&———–

Case Study kinh điển về quảng cáo hiệu quả (Performance Based Marketing) – D. Trump dựa vào dữ liệu người dùng (user data) & tiếp thị trực tuyến (online marketing) để đắc cử tổng thống như thế nào?

Case Study kinh điển về quảng cáo hiệu quả (Performance Based Marketing) – D. Trump dựa vào dữ liệu người dùng (user data) & tiếp thị trực tuyến (online marketing) để đắc cử tổng thống như thế nào?

(Nguồn: https://www.urekamedia.com)

Bạn đã nghe về Dữ liệu người dùng (User Data), Dữ liệu lớn (Big Data), Nền tảng quản lý phân tích dữ liệu người dùng (DMP – Data Management Platform) & Quảng cáo Hiệu quả (Performance Based Marketing) mà vẫn chưa có một hình dung nào rõ ràng rằng chúng có thể làm gì? Vậy thì với bài viết sau bạn sẽ hình dung rõ hơn chúng có thể làm gì và chúng quan trọng như thế nào.

Trong chiến dịch tranh cử tổng thống Mỹ 2016 vừa rồi có thể có một số tin tức giả mạo trên Facebook, nhưng sức mạnh của nền tảng quảng cáo trực tuyến mà cụ thể là quảng cáo Facebook để tác động ảnh hưởng đến cử tri là sự thực, rất đáng suy ngẫm.

Đây là cách mà đội ngũ vận hành chiến dịch tranh cử của Trump đã sử dụng dữ liệu để nhắm chọn mục tiêu người Mỹ gốc Phi và phụ nữ trẻ với chiến dịch quảng cáo Facebook và Instagram trị giá 150 triệu đôla Mỹ (*) trong những tuần cuối cùng của cuộc bầu cử. Và đây có thể là chiến dịch vận động làm thay đổi suy nghĩ của cử tri thành công nhất trong lịch sử bầu cử nước Mỹ từ trước tới nay.

Trong suốt chiến dịch, bộ xậu của Donald J. Trump rất khôn ngoan sử dụng quảng cáo Facebook nhằm tạo độ phủ (reach) tới những người ủng hộ ông và cũng là để quyên góp tiền hỗ trợ chiến dịch. Tuy nhiên ban đầu, theo các số liệu khảo sát thì đều cho kết quả Trump đang gặp bất lợi, thậm chí là sự ủng hộ từ các cử tri cũng rất ít, nên đội ngũ vận hành chiến dịch tranh cử của Trump đã triển khai cơ sở dữ liệu tùy chỉnh có tên Project Alamo, trong đó chứa hồ sơ chi tiết của 220 triệu cử tri Mỹ.

Với Project Alamo như là vũ khí chính, bộ phận phụ trách kỹ thuật số của Trump đã âm thầm thực hiện chiến dịch quảng cáo Facebook nhằm làm mất niềm tin, giảm sự ủng hộ của các cử tri vào bà H. Clinton. Các chiến dịch kiểu như vậy đã ngốn khá nhiều tiền bạc và nguồn lực của Trump vào các quảng cáo chính trị trên Facebook, Instagram, mạng lưới người dùng Facebook, …

Làm giảm niềm tin, sự ủng hộ. Giảm số phiếu bầu phổ thông (cho H. Clinton)

Chúng tôi có ba chiến dịch nhằm làm giảm niềm tin của cử tri” – một quan chức cấp cao trong bộ máy vận động tranh cử của Trump đã tiết lộ với các phóng viên từ Bussiness Week – “Các chiến dịch làm giảm niềm tin này nhắm vào ba nhóm cử tri mà H. Clinton buộc phải có phiếu bầu từ họ với tỉ lệ áp đảo, đó là: Người da trắng theo chủ nghĩa lý tưởng, Phụ nữ trẻ và Người Mỹ gốc Phi”.

Mục tiêu là của các chiến dịch là nhằm làm giảm tối đa có thể số phiếu bầu phổ thông cho bà H. Clinton. “Chúng tôi biết nó sẽ hiệu quả bởi vì chúng tôi đã vận hành thử trên mô hình” – quan chức cấp cao của Trump nói thêm – “Nó sẽ ảnh hưởng đáng kể niềm tin của những cử tri thuộc nhóm này với các bài vận động tranh cử của bà ấy

Ví dụ: Bộ phận phụ trách kỹ thuật số của Trump đã tạo ra một đoạn phim hoạt hình có hình ảnh H. Clinton đang nói “Thú ham ăn” (nguyên văn là: super predator), thậm chí đoạn phim còn sử dụng cả âm thanh gốc được cắt ra khi bà nói câu này vào năm 1996, kèm theo đó là những phụ đề trong đoạn phim như: Hillary nghĩ Người Mỹ gốc Phi là thú ham ăn. Sau đó, đoạn phim hoạt hình này sẽ được chuyển tải tới những đối tượng được nhắm chọn là Người Mỹ gốc Phi thông qua Facebook bằng một cách thức gọi là “dark post” – nôm na thì cách thức này sẽ không hiển thị công khai bài viết, nó chỉ hiển thị cho những đối tượng mà nhóm của Trump đã nhắm chọn.

Thực tế thì Facebook hiện tại từ chối phổ biến đoạn phim hoạt hình quảng cáo “Hillary nghĩ Người Mỹ gốc Phi là thú ham ăn” đến các cử tri, hoặc bất kỳ quảng cáo chính trị nào thể hiện những quan điểm tiêu cực của ứng viên tổng thống. Tuy nhiên, Facebook cũng từ chối cung cấp chi tiết về cách thức nhắm chọn giới tính, dân tộc, hoặc bất kỳ thông số chi tiết nào để phục vụ cho việc quảng cáo nhắm chọn người dùng cho các nhà lập pháp. Do đó, cho đến khi có các bộ luật mới được qui định chặt chẽ hơn, còn không thì chắc chắn những quảng cáo chính trị nhắm chọn mục tiêu mà nhóm Trump đã thực hiện là hoàn toàn phù hợp với pháp luật của liên bang.

Do những việc đó, nền tảng quảng cáo của Facebook gần đây cũng đã bị chỉ trích mạnh mẽ từ Quốc hội vì cho cho phép các nhà quảng cáo nhắm mục tiêu người Mỹ gốc Phi, người Mỹ gốc Á, và người Mỹ nói tiếng Latin (nói chung là nhóm Hispanic). Đối mặt làn sóng chỉ trích mạnh mẽ này, Facebook tuần trước buộc phải tuyên bố sẽ xây dựng một hệ thống tự động có chức năng nhận diện được các quảng cáo mang tính phân biệt chủng tộc và không phù hợp với luật; và thời điểm hệ thống mới sẽ được đưa vào vận hành được dự đoán là đầu năm 2017.

Sau bầu cử, Mark Zuckerberg – CEO của Facebook – đã nói rằng “Tôi nghĩ cái ý tưởng tin tức giả mạo trên Facebook làm ảnh hưởng đến cuộc bầu cử dù nghĩ thế nào thì cũng thực sự là một ý tưởng khá điên rồ“. Nhưng ông cũng có ý nhún nhường khi nhận định rằng: chiến thắng của Trump chứng tỏ quảng cáo của Facebook cũng có thể ảnh hưởng tới bầu cử.

Tuy nhiên, Mark sẽ không nói “ý tưởng khá điên rồ” khi biết rằng nền tảng quảng cáo của Facebook thực sự vô cùng hiệu quả, nó có thể tác động các người dùng Facebook & khiến cho họ nhấp chuột (click), mua (buy), hoặc thậm chí là bỏ phiếu (vote). Doanh thu của Facebook là 17,9 tỷ đô-la Mỹ trong năm 2015, và theo báo cáo tài chính thường niên thì họ cũng thừa nhận rằng: “nguồn thu chính là từ quảng cáo. Những sự giảm sút các nhà quảng cáo, hoặc việc các nhà quảng cáo giảm chi phí quảng cáo thực sự có thể gây tổn hại đến việc kinh doanh”.

Bộ phận phụ trách kỹ thuật số hoành tráng của Trump

Động cơ của các chiến dịch vận động tranh cử trong môi trường trực tuyến của Trump được gọi là Bộ phận phụ trách kỹ thuật số (nguyên văn: Digital Operations Division). Trụ sở chính đặt tại San Antonio, có 100 nhân viên, trong đó bao gồm: các lập trình viên, các nhà phát triển web, kỹ sư mạng, các nhà khoa học dữ liệu, các nghệ sĩ đồ họa, copywriter, và những người phụ trách mua tài nguyên quảng cáo (media buyers). Với người điều phối, điều hành của bộ phận này là Brad Parscale – một doanh nhân thành đạt và là người sáng lập của công ty tiếp thị Giles-Parscale Inc.

Parscale làm việc chặt chẽ với Trump và là một trong vài người than tín được Trump tin tưởng cho quản lý tài khoản Twitter của ông là @realDonaldTrump. Việc thiếu kinh nghiệm thực hiện những chiến dịch tranh cử như thế này của Parscale thực ra là một trong những vốn quý của ông vì ông luôn thắc mắc và luôn tự hỏi: “Tôi luôn luôn tự hỏi tại sao mọi người cứ nghĩ những chiến dịch vận động tranh cử là một cái gì đó huyền bí,” – Parscale – “Nó cũng tương tự như những chiến dịch tiếp thị thương mại, chỉ có tên chiến dịch có vẻ ghê gớm hơn mà thôi.” Dựa vào những kỹ năng sành sỏi của Parscale, họ đã tạo ra các chiến dịch gây quỹ tranh cử hiệu quả thông qua Facebook và Email Marketing; và cũng chính Bộ phận phụ trách kỹ thuật số là nơi ngốn nhiều chi phí nhất trong chiến dịch vận động tranh cử của Trump.

Phóng viên Sasha Issenberg và Joshua Green – Mảng chuyên đề kinh doanh BussinessWeek của Bloomberg – còn tiết lộ Tổng thống đắc cử Trump cực kỳ quan tâm đến các chiến dịch vận động tranh cử trực tuyến và các chiến dịch gây quỹ cho ông rằng: “Trump, bản thân ông là một người ham học hỏi. Parscale sẽ ngồi với ông trên máy bay để chia sẻ những thông tin, hiểu biết mới nhất về tập đối tượng nhắm chọn thu thập được với số lượng ngày càng nhiều và 230 triệu đô-la Mỹ họ đã quyên góp được cho chiến dịch của Trump“.

100.000 trang web trong chiến dịch vận động cho Trump

Thực tế những ngày đầu, nhiệm vụ của Parscale là phải tăng được số lượng người ủng hộ, hỗ trợ cho Trump với ngân sách khá nhỏ. Parscale đã tính toán và quyết định dành tất cả chi phí có được để quảng cáo trên Facebook.Thực tế khi Parscale sử dụng laptop để thiết lập chiến dịch quảng cáo Facebook đầu tiên có giá trị 2 triệu đô-la Mỹ thì ông đã khởi đầu một chiến dịch tranh cử mà kết quả của nó thực sự đáng kinh ngạc.

Bước đầu, Parscale tải lên nền tảng quảng cáo Facebook thông tin những người ủng hộ Trump (bao gồm: tên, địa chỉ email và số điện thoại) mà ông đã biết. Sau đó, nhóm của Parscale tiến hành việc khớp thông tin (matching) của những người đã được tải lên với các tài khoản đã có trên Facebook bằng chức năng “Audience Targeting Options”. Với tính năng này của Facebook, các nhà quảng cáo có thể nhắm chọn mục tiêu & quảng cáo có thể được chuyển tải đến những người dùng dựa trên các hoạt động (activity), mối quan hệ gia đình (ethic affinity), hay là vị trí (location) và nhân khẩu học (demographic) như tuổi, giới tính và sự quan tâm (interest). Thậm chí có thể nhắm chọn mục tiêu quảng cáo của bạn đến mọi người dựa trên những gì họ thực hiện trên môi trường trực tuyến ngay cả khi họ tắt Facebook.

Parscale sau đó còn mở rộng nhóm đối tượng nhắm chọn trên Facebook bằng mô hình “Lookalike Audiences” (Đối tượng tương đồng) nhằm tìm kiếm và chuyển tải quảng cáo tới những người có hành vi, đặc điểm … tương đồng với những người ủng hộ và bầu cho Trump.

Cuối cùng, Parscale sử dụng công cụ “Brand Lift” của Facebook để tiến hành khảo sát và đo lường mức độ thành công của quảng cáo.

Parscale cũng đã cho phát triển và triển khai phần mềm nhằm tối ưu hóa các thiết kế quảng cáo và thông điệp quảng cáo Facebook của Trump. Nói về việc này, phóng viên Christopher Mims – Wall Street Journal – đã viết về trải nghiệm này như sau: “Vào một ngày trong tháng 8, bộ xậu của Trump đã chuyển tải quảng cáo đến hơn 100.000 website khác nhau cho từng người dùng mà họ thu thập được từ Facebook, mỗi mẫu quảng cáo, mỗi thông điệp khác nhau được dùng để chuyển tải tới những tập khách hàng đã được phân loại (segmentation) phù hợp khác nhau nhằm thuyết phục cử tri bầu cho Trump. Tổng cộng, Bộ phận phụ trách kỹ thuật số của Trump đã tạo ra được hơm 100.000 mẩu quảng cáo (hình ảnh, nội dung, video…).

Trung tâm dữ liệu

Sau đề Trump giành chiến thắng trong cuộc đề cử nội bộ của đảng Cộng Hòa, Parscale được giao nhiệm vụ xây dựng và phát triển mạnh thêm các chiến dịch quảng cáo chính trị nhắm chọn cử tri. Và Ủy ban Quốc gia đản Cộng Hòa (RNC – Republican National Committee) với chủ tịch Reince Preibus lúc này nổi lên như một bên cung cấp dữ liệu chính cho chiến dịch của Trump; ủy ban này đã trở nên nổi tiếng sau khi đầu tư hơn 100 triệu đô-la Mỹ cho trung tâm dữ liệu của đảng kể từ sau chiến dịch tranh cử thất bại của Mitt Romney vào 2012.

Preibus và nhóm của ông – RNC – tới San Antonio để gặp và thảo luận với Parscale về việc hợp tác giữa 2 bên. Tại đây, trong nhà hàng phong cách Mexico yêu thích của Parscale, hai bên đã tiến tới thống nhất điều khoản hợp tác mà theo đó bộ xậu của Trump được phép tiếp cận danh sách 6 triệu người trong danh sách đóng góp quỹ cho đảng Cộng Hòa để tiến hành gây quỹ cho chiến dịch của Trump, tuy nhiên phía Trump chỉ được phép lấy 20% trên tổng số tiền gây quỹ được từ danh sách này, còn lại 80% là thuộc về RNC.

Nhìn lại thì có vẻ như bộ xậu Trump đã bị RNC bắt chẹt. Tuy nhiên, vào thời điểm đó, bộ xậu của Trump hầu như không có bất kỳ cơ sở hạ tầng kỹ thuật số hay cơ sở dự liệu nào cả. Thực tế, vào khoảng thời gian đầu chiến dịch (tầm tháng 6/2016) có đến 60% email của đội ngũ Trump gửi đi bị chặn lại bởi bộ lọc thư rác. Điều này cho thấy việc hợp tác này là thiết thực & rất cần cho Trump.

Xây dựng Trung tâm dữ liệu – Project Alamo

Dưới sự lãnh đạo của Jared Kushner – một cố vấn cấp cao của chiến dịch và con rể của Trump – Parscale bắt đầu xây dựng dữ liệu cử tri (user data) ủng hộ Trump một cách âm thầm. Những cơ sở dữ liệu này thực sự là cú đột phá của Trump có tên là Project Alamo, nó chứa thông tin của 220 triệu người ở Hoa Kỳ, và khoảng 4.000 đến 5.000 dự liệu trực tuyến lẫn đời thực (nhân khẩu học, hành vi, quan tâm, sở thích …) của mỗi người; thực sự khổng lồ. Trung tâm dữ liệu này được tài trợ hoàn toàn bởi tiền của Trump nên nó là sở hữu riêng của Trump và vẫn tồn tại đến nay.

Project Alamo còn được cập nhật thêm các thông tin khác, kể cả những thông tin kiểu như hồ sơ đăng ký của cử tri, giấy phép sở hữu súng, lịch sử mua hàng thông qua thể tín dụng, và thông tin trên môi trường trực tuyến của mỗi người. Bộ xậu của Trump đã mua những thông tin này từ các bên cung cấp Third Party Data và là đối tác của Facebook như: Experian PLC, Datalogix, Epsilon, và Acxiom Inc.

Một trong những bên cung cấp dữ liệu quan trọng cho chiến dịch tranh cử của Trump và Project Alamo là Cambridge Analytica LLC., – một công ty chuyên về khoa học dữ liệu và họ khá nổi tiếng trong việc nghiên cứu hành vi tâm lý người dùng. Và theo như BussinessWeek mô tả thì “Phương thức của Cambridge Analytica là thống kê, phân tích và phân loại (segmentation) những người có khả năng ủng hộ Trump và chuyển tải quảng cáo trên Facebook liên tục đến từng người mà có thể hình dung giống như ném bom rải thảm, trong khi đó dữ liệu cử tri tiềm năng được cung cấp từ Gingrich & Tea Party sẽ được dùng để gửi email 

Mô hình của Cambridge Analytica cũng giúp ích trong việc lên lịch trình vận động tranh cử cho Trump, những nơi mà Trump tới diễn thuyết vận động tranh cử sẽ được các thuật toán của Cambridge Analytica tính toán và chọn lựa những nơi có lượng cử tri sẽ tham dự đông đảo và dễ thuyết phục nhất.

Việc này mang tính quyết định,  như Steve Bannon  – Chủ tịch Ủy ban vận động tranh cử của Trump và cũng là thành viên Hội đồng quản trị của Cambridge Analytica – đã nói: “Tôi sẽ không tham gia vào việc này (ý chỉ việc vận động tranh cử cho Trump), ngay cả đối với Trump, nếu tôi không biết họ đang tạo các chiến dịch quảng cáo Facebook và xây dựng những cơ sở dữ liệu khổng lồ như này. Facebook là cái đã mang đến cho Breitbart(**) đến một lượng khán giả lớn. Chúng tôi biết sức mạnh của nó

Dùng Dark Post của Facebook để tác động vào nhóm cử tri Người Mỹ gốc Phi & những người ủng hộ Clinton

Với sức mạnh được tạo ra bởi Project Alamo và các đối tác cung cấp dữ liệu như RNC và Cambridge Analytica, mỗi tháng Bộ phận phụ trách kỹ thuật số của Trump tiêu tốn khoảng 70 triệu đô-la Mỹ vào việc đưa quảng cáo tới những người ủng hộ hoặc có khả năng ủng hộ Trump, phần lớn là thông qua Facebook. Với nhóm đối tượng ủng hộ Trump thì Bộ phận phụ trách kỹ thuật số chủ yếu dùng quảng cáo Facebook để gây quỹ cho chiến dịch, và họ đã gây quỹ được tổng cộng 275 triệu đô-la Mỹ thông qua nhóm này trên Facebook, một con số đáng mơ ước.

Tuy nhiên, vào những tuần cuối cùng của chiến dịch thì ngày càng lượng người ủng hộ Trump càng giảm xuống, nên Bộ phận phụ trách kỹ thuật số của Parscale quyết định là dùng các quảng cáo Facebook để tác động vào nhóm người ủng hộ bà H. Clinton.

Và theo như BussinessWeek mô tả thì “Bộ xậu của Trump đã nghĩ ra một chiến lược khác, trong đó không có gì ngạc nhiên, đó là một chiến lược mang tính tiêu cực. Thay vì cố gắng tìm kiếm thêm cử tri ủng hộ Trump, Bannon và nhóm của ông quyết định để thu hẹp nhóm cử tri ủng hộ H. Clinton”.

Khi đó Bannon đã nói: “ Chúng tôi có ba chiến dịch nhằm làm giảm niềm tin của cử triCác chiến dịch làm giảm niềm tin này nhắm vào ba nhóm cử tri mà H. Clinton buộc phải có phiếu bầu từ họ với tỉ lệ áp đảo, đó là: Người da trắng theo chủ nghĩa lý tưởng, Phụ nữ trẻ và Người Mỹ gốc Phi ”

Ngày 24 tháng 10, bộ xậu của Trump bắt đầu đưa quảng cáo chính trị lên một số đài phát thanh của Mỹ gốc Phi. Ngoài ra, Bộ phận phụ trách kỹ thuật số của Trump đã tạo ra một đoạn phim hoạt hình có hình ảnh H. Clinton đang nói “Thú ham ăn” (nguyên văn là: super predator), thậm chí đoạn phim còn sử dụng cả âm thanh gốc được cắt ra khi bà nói câu này vào năm 1996, kèm theo đó là những phụ đề trong đoạn phim như: Hillary nghĩ Người Mỹ gốc Phi là thú ham ăn. Sau đó, đoạn phim hoạt hình này sẽ được chuyển tải tới những đối tượng được nhắm chọn là Người Mỹ gốc Phi thông qua Facebook bằng một cách thức gọi là “dark post”.

Mục tiêu là của các chiến dịch là nhằm làm giảm tối đa có thể số phiếu bầu phổ thông cho bà H. Clinton. “Chúng tôi biết nó sẽ hiệu quả bởi vì chúng tôi đã vận hành thử trên mô hình” – quan chức cấp cao của Trump nói thêm – “Nó sẽ ảnh hưởng đáng kể niềm tin của những cử tri thuộc nhóm này với các bài vận động tranh cử của bà ấy

Kỹ thuật số đã chiến thắng với chiến lược làm giảm niềm tin

Các chiến dịch kỹ thuật số của Trump đã tiêu tốn hàng triệu đô-la Mỹ cho khoa học dữ liệu để có thể hiểu được những người ủng hộ – những người mà có khả năng bỏ phiếu cho ông –  Trump cũng chấp nhận rủi ro để có được dữ liệu, tìm hiểu về những người ủng hộ Clinton. Cuối cùng, canh bạc mạo hiểm nhất là Trump dùng quảng cáo Facebook nhắm chọn chi tiết (micro targeted) đến những người Mỹ gốc Phi, phụ nữ trẻ … – những người ủng hộ bà Clinton và ông đã thành công.

Trong ngày bầu cử, lượng cử tri bầu cho đảng Dân chủ bất ngờ giảm sút ở các bang chiến trường, đặc biệt là các cử tri độc lập và lần đầu tiên đi bầu. Chiến lược gia Dân chủ David Plouffe cảm thán  “Tại Detroit, tổng số phiếu bà Clinton đạt được ít hơn ông Obama đạt được năm 2012 là 70.000 phiếu; bà cũng mất bang Michigan với khoảng cách chỉ 12.000 phiếu. Tại hạt Milwaukee ở bang Wisconsin, kết quả của Clinton cũng kém Obama đã đạt được là 40.000 phiếu, và bà mất luôn bang này với khoảng cách chỉ 27.000 phiếu. Trong khi tại hạt Cuyahoga bang Ohio, cử tri thuộc nhóm Mỹ gốc Phi bầu cho đảng Dân chủ đã giảm 11% so với 4 năm trước”.

Chiến thắng của Trump trong cuộc bầu cử là chiến thắng của chiến dịch vận động làm thay đổi suy nghĩ của cử tri thành công nhất trong lịch sử bầu cử nước Mỹ từ trước tới nay. Với vũ khí bí mật trong các chiến dịch kỹ thuật số là Project Alamo với cơ sở dữ liệu người dùng (user data) của 220 triệu cử tri Mỹ và nền tảng quảng cáo Facebook. Bằng cách tận dụng các công cụ quảng cáo rất tinh vi của Facebook, bao gồm công cụ Dark Post, công cụ Nhắm chọn mục tiêu (Audience Targeting) của Facebook và công cụ Nhắm chọn Đối từng Tùy chỉnh từ Danh sách có sẵn (Custom Audiences from Customer Lists) của Facebook, các chiến dịch quảng cáo trực tuyến của Trump đã âm thầm nhắm chọn những người ủng hộ bà Hillary Clinton và ngấm ngầm khuyến khích họ bỏ phiếu cho Trump.

Ghi chú của người dịch:

(*) Với 150 triệu đôla Mỹ và với tổng số phiếu bầu mà Trump đạt được là hơn 62 triệu phiếu thì đây rõ ràng xứng đáng là 1 casestudy về CPA kinh điến với chi phí rơi vào khoảng 2,4usd/ 1 phiếu.

(**) Breitbart: là đầu báo chuyên viết về chính trị có trụ sở tại NewYork, họ đã thu hút được lượng đọc giả rất lớn nhờ quảng cáo Facebook.

Nguồn: Medium

Dịch: Quốc Hưng

————&&&———-

Big Data đã giúp Trump chiến thắng trong cuộc Bầu cử Mỹ

Kỳ I: Big Data đã giúp Trump chiến thắng trong cuộc Bầu cử Mỹ

(Nguồn: http://vietnamnet.vn)

Tờ tạp chí “Das Magazin” của Thụy sĩ  xuất bản bằng tiếng Đức một cuộc điều tra về cách thức mà các nhà khoa học về dữ liệu (data scientist) kết hợp các công ty phân tích dữ liệu lớn (data analytics) sử dụng công nghệ quảng cáo tùy biến theo cá nhân trên Facebook gây ảnh hưởng đến cuộc bầu cử tổng thống Hoa Kỳ. Nhiều nhà báo trên thế giới đã gọi bài báo điều tra này là “text of the year” (bài viết của năm) về tác dụng của bigdata vào đời sống trong đó chúng ta có thể thấy các công nghệ mới nhất về dữ liệu lớn (Big Data), khoa học hành vi, và các phần mềm gián điệp đang len lỏi vàođời sống hàng ngày của mỗi người chúng ta. Phần lớn bài biết dưới đây rút ra từ bài báo: “Ich habe nur gezeigt, dass es die Bombe gibt” đăng ngày 3 tháng 12 năm 2016 trên Das Magazin.

Ngày 9 tháng 11 năm 2016, theo như Das Magazin thì một quả bom đã phát nổ: Donald Trump đã được bầu làm tổng thống Mỹ, bất chấp dự báo của các nhà xã hội học.

Cũng ngày hôm đó, một công ty nhỏ chưa ai nghe tên ở London đã gửi đi thông cáo báo chí: “chúng tôi lấy làm kinh ngạc vì phương pháp truyền thông dựa trên dữ liệu có tính cách mạng của mình đã góp phần đáng kế vào chiến thắng của Donald Trump”. Thông cáo được ký bởi một người tên là Alexander Nix, 41 tuổi, người Anh và lãnh đạo công ty Cambridge Analytica. Phương pháp cách mạng về truyền thông dựa trên dữ liệu (revolutionary approach to data-driven communications)  này sử dụng kết quả công trình nghiên cứu của một nhà khoa học 34 tuổi tên là Michal Kosinski, chuyên gia hàng đầu trong lĩnh vực psychometrics – ngành tâm lý học dựa trên phân tích dữ liệu.

Kỳ I: Big Data đã giúp Trump chiến thắng trong cuộc Bầu cử Mỹ

Từ dữ liệu (data) đến  phân tích dữ liệu (data analytics) và dữ liệu lớn (Big Data) thành những từ thời thượng (buzzword) nhưng Big Data nguy hiểm đến mức nào?

Dữ liệu lớn là một thuật ngữ dựa trên một khái niệm rằng tất cả những gì ta làm, trên mạng hay offline, đều để lại dấu vết số. Mua hàng bằng thẻ tín dụng, tìm đường trên Google, dạo chơi với điện thoại trong túi, dùng thiết bị đeo (wearable device) để theo dõi sức khỏe, mức độ tập luyện đến việc nhấn like trên mạng xã hội: tất cả đều được lưu lại dưới dạng những dữ liệu và dữ liệu này rất lớn, khổng lồ theo thời gian. Một thời gian dài không ai hình dung có thể sử dụng các dữ liệu ấy làm gì. Cũng không ai biết Big Data sẽ là gì đối với nhân loại, hiểm họa lớn hay thành tựu vĩ đại? Nhưng từ 9/11 chúng ta đã biết câu trả lời. Đằng sau chiến dịch tranh cử của Trump trên mạng, và đằng sau chiến dịch ủng hộ Brexit là cùng một công ty chuyên nghiên cứu Big Data: Cambridge Analytica (CA) dưới sự lãnh đạo của  giám đốc AlexanderNix. Tuy nhiên, dữ liệu chỉ là dữ liệu nếu nó không được phân tích và được mô hình hóa. Có rất nhiều mô hình để phân tích dữ liệu nhưng công ty CA đã sử dụng phương pháp đo nhân cách (psychometrics), đôi khi gọi là đồ hình nhân cách (psychography) do Michal Kosinski,nhà khoa học hàng đầu về dữ liệu và là phó giám đốc Trung tâm đo nhân cách (Psychometrics Centre) thuộc trường Đại học Cambridge.

Trong tâm lý học hiện đại, để đo nhân cách thì phổ biến nhất là dùng phương pháp OCEAN (từ chữ cái đầu của 5 chiều đo). Vào những năm 1980, các nhà tâm lý học đã chứng minh là mỗi người có thể được đo bằng 5 chiều. Đó là Big Five: độ mở đối với trải nghiệm (Openness), sự ý thức (Conscientiousness), sự hướng ngoại (Extraversion), sự dễ chịu (Agreeableness) và sự nhạy cảm (Neuroticism).  Trên cơ sở những số đo ấy có thể hiểu chính xác bạn là ai, bạn có mong muốn và nỗi sợ hãi nào, và bạn sẽ hành xử như thế nào. Trở ngại chính là việc thu thập dữ liệu vì để hiểu được một người, cần phải điền bảng hỏi khổng lồ và cần thu thập dữ liệu rất lớn. Sự phát triển của khoa học dữ liệu và dữ liệu lớn đã góp phần giải quyết thành công những trở ngại mà phương pháp OCEAN đặt ra.

Tại Trung tâm đo nhân cách, Kosinski và các cộng sự đã phát triển một ứng dụng trên facebook là MyPersonality trong đó người dùng trả lời các bảng các câu hỏi để biết nhân cách của mình và họ đã thu thập được dữ liệu của hàng triệu người dùng Facebook.

Kosinski và nhóm nghiên cứu các hành động của họ trên Facebook như like và re-post, và giới tính, độ tuổi và nơi ở. Qua đó nhóm thu được các mối tương quan (correlation). Từ kỹ thuật phân tích các dữ liệu trên mạng có thể cho ra những kết luận bất ngờ. Ví dụ, nếu một người đàn ông là fan của page mỹ phẩm MAC, thì khả năng lớn là đồng tính; Ngược lại, anh ta rất nam tính nếu là fan của ban nhạc hip hop Wu-Tang Clan ở New York. Fan của Lady Gaga khả năng lớn là người hướng ngoại, còn kẻ hay like các post mang tính triết lý thì hướng nội.

Kỳ I: Big Data đã giúp Trump chiến thắng trong cuộc Bầu cử Mỹ
Công ty Cambridge Analytica đã phát triển một giải pháp toàn diện cho phép biết tính cách của mỗi công dân Mỹ, những người có quyền bỏ phiếu.

Công trình nghiên cứu của Kosinski không chỉ cho phép lập chân dung tâm lý của người dùng, mà còn cho phép tìm kiếm những người có chân dung cần thiết. Ví dụ như có thể tìm những ông bố lo lắng, những kẻ hướng nội giận dữ, hay những người ngả theo đảng Dân chủ nhưng còn lưỡng lự bỏ phiếu. Về bản chất, đó là hệ thống tìm kiếm con người với những đặc tính cần tìm hiểu.

Vào năm 2014, một công ty quan tâm đến phương pháp của Kosinski đề nghị thực hiện một dự án  sử dụng psychometrics để phân tích 10 triệu người dùng Mỹ trên Facebook nhưng phân tích người dùng làm gì và tên công ty thì không nói viện cớ bảo mật thông tin. Lúc đầu Kosinski đồng ý nhưng rồi anh lại trì hoãn. Cuối cùng, tên công ty được tiết lộ là SCL (Strategic Communications Laboratories). Và trên website của công ty giới thiệu:  “chúng tôi là công ty toàn cầu chuyên về quản lý các chiến dịch tranh cử”. Công ty SCL này là công ty mẹ của công ty Cambridge Analytica, công ty thực hiện chiến dịch online cho Brexit và Trump.

Tháng 11 năm 2015 lãnh tụ phái cấp tiến ủng hộ Brexit Nigel Farage tuyên bố là website của của ông ta bắt đầu làm việc với một công ty chuyên về Big Data, chính là CA. Năng lực cốt lõi của công ty này là tiếp thị chính trị (political marketing) kiểu mới, còn được gọi là microtargeting, trên nền tảng phương pháp OCEAN.

Đào Trung Thành


Kỳ II: Big Data nguy hiểm tới mức nào?

(Nguồn: http://vietnamnet.vn)

Tháng 6 năm 2016, Trump đã thuê các chuyên gia Cambridge Analytica, nhiều người ở Washington cười cợt. Họ chắc chắn rằng Trump sẽ không bao giờ có thể hợp tác với các chuyên gia tư vấn nước ngoài của mình một cách hiệu quả. Tuy nhiên, họ đã sai.

Kỳ II: Big Data nguy hiểm tới mức nào?

Khác với Omama được xem là Tổng thống của mạng xã hội thì D. Trump vẫn được người ta cười nhạo về việc khả năng rất kém của ông trong việc sử dụng các công cụ công nghệ thông tin, mạng xã hội. Trợ lý của Trump tiết lộ, thậm chí ông còn không dùng email. Bản thân cô trợ lý này đã dạy ông dùng điện thoại, và từ đó ông dùng nó để đổ dòng suy nghĩ của mình lên Twitter.

Công ty Cambridge Analytica đã phát triển một giải pháp toàn diện cho phép biết tính cách của mỗi công dân Mỹ, những người có quyền bỏ phiếu. Giải pháp tiếp thị chính trị tuyệt vời của Cambridge Analytica dựa trên ba chiến thuật chính:

•    Phân tích hành vi (Behavioral analysis)  theo mô hình OCEAN.

•    Nghiên cứu cẩn thận Big Data.

•    Quảng cáo nhắm mục tiêu (Targeted advertising).

Quảng cáo nhắm mục tiêu có nghĩa là quảng cáo cá nhân hóa, được xây dựng theo tính cách của từng cá thể người dùng dựa trên nhân tính của họ xác định từ mô hình OCEAN.

Như vậy, bản thân Big Data chỉ là một nguồn thông tin lớn, một mỏ vàng cần được khai thác nhưng khái thác thế nào hiệu quả lại là một vấn đề khác. Cần có một mô hình phân tích hành vi tiên tiến. Và khi biết một người có tính cách gì và đang lưỡng lự trong việc bỏ phiếu thì cần phải dùng thông điệp thế nào cho phù hợp.

Kỳ II: Big Data nguy hiểm tới mức nào?

Bản chất đầy mâu thuẫn của Trump, tính phi nguyên tắc và hệ quả là số lượng lớn các loại thông điệp khác nhau bỗng trở nên hữu ích cho ông ta: mỗi cử tri nhận được một thông điệp riêng. “Trump hành xử như một thuật toán cơ hội lý tưởng, hoàn toàn chỉ dựa trên phản ứng của công chúng” – nhà toán học Cathy O’Neil nhận xét vào tháng tám. Vào ngày tranh luận thứ ba giữa Trump và Clinton, đội của Trump đã gửi vào mạng xã hội (chủ yếu là Facebook) hơn 175 nghìn thông điệp. Chúng chỉ khác nhau ở những chi tiết rất nhỏ, nhằm phù hợp nhất với tâm lý của người nhận cụ thể: tiêu đề, tiêu đề phụ, màu nền, ảnh và video. Cách làm tỉ mỉ như vậy khiến cho thông điệp nhận được sự đồng cảm của những nhóm cư dân nhỏ nhất, như Nix giải thích cho Das Magazine: “Bằng cách đó chúng tôi có thể vươn đến tận làng, khu phố hay ngôi nhà cần thiết, thậm chí là từng người”.

Chiến thắng của ứng cử viên Cộng hòa Donald Trump trước đối thủ đến từ Đảng Dân chủ Hillary Clinton được cho là một chiến thắng ít tốn kém và nhiều hiệu quả nhất. Theo hãng tin Reuters, Trump tiêu tốn dưới 5 USD cho mỗi lá phiếu bầu cho ông, thấp hơn nhiều so với chi phí của bà Clinton.

Theo số liệu mới nhất từ Ủy ban Bầu cử Liên bang, Trump đã huy động được tổng số 270 triệu USD kể từ khi bắt đầu chiến dịch tranh cử vào tháng 6/2015. Trong khi Hillary Clinton huy động được 521 triệu USD, gấp đôi khoản tiền mà Trump huy động được. Nhưng 237 triệu chi phí cho truyền hình, 53 triệu cho nhân viên và các tình nguyện viên hỗ trợ tranh cử, một khoản tiền lớn cho các báo, đài, các phương tiện truyền thống. Đó cũng là lý giải tại sao khi xem các phương tiện truyền thống như báo, đài thì có vẻ Hillary được đánh giá cao hơn Trump.

Một hãng Phân tích dữ liệu lớn khác là mediaQuant đánh giá các chương trình truyền thông thông tin cho cuộc bầu cử 2016 của Trump mang lại một giá trị định lượng tương đương 5 tỷ USD cho ông này, so với bà Clinton là 3.5 tỷ hay tỉ lệ 58% so với 42%. Thực tế ông Trump đã chiếm được 279 phiếu bầu đại cử tri so với 228 phiếu bầu của bà Hillary, tỷ lệ 52% so với 48%.

Khó có thể nói xã hội Mỹ bị tác động đến mức nào bởi các chuyên gia của Trump tại một thời điểm cụ thể, vì họ không sử dụng các kênh trung ương mà dùng mạng xã hội và truyền hình cáp.

Kỳ II: Big Data nguy hiểm tới mức nào?

Từ tháng 7/2016 các tình nguyện viên của Trump đã nhận được app cho phép biết được thiên kiến chính trị và loại nhân cách của cư dân nhà này hay nhà khác. Theo đó, những tình nguyện viên – tuyên truyền viên điều chỉnh hội thoại của mình với người dân. Phản hồi của người dân lại được họ ghi ngược vào app đó, và dữ liệu chuyển thẳng về trung tâm phân tích của CA.

Công ty xác định ra 32 loại tính cách tâm lý của dân Mỹ, tập trung ở 17 bang. Và như Kosinski đã phát hiện, rằng đàn ông thích mỹ phẩm MAC thì hầu như chắc chắn là đồng tính, CA chứng minh rằng những kẻ trung thành với ô tô Mỹ hẳn nhiên là ngả theo Trump. Hơn nữa, những phát kiến như vậy giúp bản thân Trump hiểu những thông điệp nào dùng ở đâu thì tốt nhất. Quyết định của đại bản doanh về việc tập trung vào Michigan và Wisconsin vào những tuần cuối cùng là dựa trên phân tích dữ liệu.

Ngoài chiếm thắng Nigel Farage ở Brexit và của Trump trong cuộc Bầu cử Mỹ  2016 thì người chiến thắng là công ty CA với khoản thù lao 15 triệu USD nhận được từ chiến dịch của Trump. Marion Maréchal-Le Pen, một nhân vật cấp tiến đồng thời là cháu của thủ lĩnh đảng “Mặt trận dân tộc” Pháp cũng đã mừng vui loan báo về quan hệ hợp tác với hãng. Theo Nix, công ty đang được rất nhiều khách hàng trên thế giới quan tâm, có cả từ Thụy sỹ và Đức.

Nhu cầu phân tích và khai thác những nguồn dữ liệu lớn và phức tạp trong các hoạt động của con người và các tổ chức trong những năm gần đây đang trở nên cấp bách. Sở dĩ vậy vì ta đang có nhiều dữ liệu quanh mình hơn bao giờ hết và nếu dùng được chúng sẽ đưa ra được các quyết định đúng đắn hơn, những hiểu biết chính xác, những khám phá quan trọng. Khoa học phân tích dữ liệu (data science or data analytics) gần đây trở thành một lĩnh vực sôi động của công nghệ thông tin, có ảnh hưởng sâu sắc tới mọi lĩnh vực hoạt động của con người, đặc biệt trong kinh doanh.

Theo nghiên cứu của các nhà kinh tế, đến năm 2018, Mỹ sẽ cần 140.000 đến 190.000 người có kỹ năng phân tích chuyên sâu cũng như 1,5 triệu nhà quản lý và phân tích trong lĩnh vực “dữ liệu lớn” (Big Data).Nắm chắc và biết sử dụng khoa học phân tích dữ liệu chính là chìa khoá của công việc và thành công trong những thập kỷ tới đây, như ý kiến nêu trong Harvard Business Review:  “Khoa học dữ liệu là công việc hấp dẫn nhất trong thế kỷ 21” (“Data scientist: the sexiest job of the 21st century”).

Đào Trung Thành

————–&&&————–

Bảy trụ cột thông thái của thống kê học

Bảy trụ cột thông thái của thống kê học

(Tác giả: Nguyễn Văn Tuấn – Nguồn: http://tuanvannguyen.blogspot.com)

Một trong những cuốn sách khoa học mà tôi rất thích trong vài tháng gần đây là cuốn “The Seven Pillars of Statistical Wisdom” của tác giả Stephen M. Stigler (1). Đây là một cuốn sách nhỏ (200 trang) cung cấp cho chúng ta những lí giải cực kì lí thú về khoa học thống kê và lịch sử đằng sau những phương pháp mà chúng ta sử dụng trong suy luận khoa học. Như tựa đề cuốn sách, tác giả Stigler tập trung vào giải thích 7 trụ cột thông thái của thống kê học, và tôi thử tóm lược theo cách hiểu của tôi dưới đây.

Nhưng trước khi giải thích, tôi thấy cần phải dành vài chữ giải thích ý nghĩa chữ wisdom, mà tôi thấy hơi khó dịch sang tiếng Việt mình. Ở mức độc đơn giản nhất, wisdom là thông thái, khôn ngoan. Nhưng nếu có kinh nghiệm cọ sát với xã hội nói tiếng Anh thì hình như chữ “thông thái” và “khôn ngoan” có vẻ không tương đương với wisdom. Trong ngữ cảnh của tựa đề cuốn sách này, tôi hiểu wisdom như là những tri thức và trải nghiệm được đúc kết qua những trải nghiệm thực tế, cũng giống như những câu ca dao là những tinh tuý về ứng xử ở đời mà cha ông chúng ta đã đúc kết và truyền lại.

Để hiểu các khái niệm trong sách, cần phải phân biệt dữ liệu (data)thông tin (information). Dữ liệu là những gì chúng ta thu thập từ nghiên cứu. Để chuyển hoá dữ liệu thành thông tin, chúng ta phải áp dụng phương pháp phân tích thống kê. Nói cách khác, thống kê học là công cụ để chúng ta thu nạp thông tin từ dữ liệu. Dĩ nhiên, từ thông tin, chúng ta có thể biến thành kiến thức (knowledge) qua dùng phương pháp qui nạp khoa học.

Sau khi phân biệt được sự khác biệt giữa dữ liệu, thông tin, và kiến thức, chúng ta thử điểm qua 7 trụ cột mà tác giả Stigler đề cập trong cuốn sách. Bảy trụ cột này cũng có thể xem là 7 nghịch lí, và tôi sẽ giải thích thêm dưới đây:

Trụ cột 1 – aggregation: Qui luật loại bỏ dữ liệu để thu nạp thông tin

Trong phần này, Stigler lí giải và đưa ra một nhận xét làm chúng ta ngạc nhiên: đó là chúng ta thu nạp kiến thức bằng cách loại bỏ thông tin! Chẳng hạn như đối phó với một dãy số liệu về chiều cao, chúng ta chỉ cần tính một số trung bình, và dùng nó như là một thông tin để kiến tạo tri thức. Còn tất cả những con số để tạo nên số trung bình thì bị loại bỏ, không được đề cập đến. Mỗi ngày, chúng ta đọc và nghe biết bao số trung bình, từ thị trường chứng khoán, chính sách kinh tế, đến nghiên cứu y khoa, tất cả đều dùng số trung bình để đi đến những quyết định phức tạp.

Lịch sử và sự ra đời của con số trung bình cũng được tác giả diễn giải rất tường tận. Thống kê học, hay ít ra là các khái niệm thống kê học, đã được sử dụng trong thiên văn học từ thế kỉ 18, phải đợi đến giữa thế kỉ 19 thì mới thịnh hành. Lí do là vấn đề đo lường và liên quan đến giá trị trung bình. Tác giả Stigler chỉ ra rằng nếu chúng ta đo lường [chẳng hạn như] Sao Mộc, thì chúng ta biết rõ đó là một thực thể, nó ở một vị trí và chúng ta có thể ước tính sai số. Nhưng nếu chúng ta đo lường tuổi thọ hay mức độ lạm phát kinh tế, thì chúng ta không có được cái “xa xỉ” như đo lường Sao Mộc, bởi vì những biến số như tuổi thọ nó xuất phát từ mẫu mà chúng ta có được và chúng ta không biết được giá trị thật của quần thể. Người có công đầu trong việc phát kiến trị số trung bình là Nhà khoa học người Bỉ Adolphe Quetelet (người sáng tạo ra chỉ số body mass index). Vào năm 1831, Quetelet “sáng chế” ra cái mà ông gọi là “L’homme Moyen” (người trung bình). Người trung bình là một cá nhân hư cấu, với giá trị trung bình mà chúng ta có thể sử dụng để đại diện một nhóm người. Do đó, Quetelet tính chiều cao và trọng lượng trung bình của một nhóm lính Pháp, rồi xem đó là một người lính tiêu biểu. Nhưng Quetelet hiểu được rằng trị số trung bình sẽ dao động giữa các nhóm lính, và ông bàn về độ chính xác cũng như cách tính. Từ đó, khoa học thống kê có một giá trị mà sau này trở thành phổ biến nhất và được áp dụng trong hầu như bất cứ lĩnh vực xã hội nào. Cái bất ngờ mà tác giả Stigler chỉ ra rằng chúng ta có cái giá trị tiêu biểu bằng cách loại bỏ dữ liệu!

Trụ cột 2 – information: Qui luật giảm lượng thông tin

Giả dụ như nếu chúng ta ước tính số trung bình quần thể dựa trên 100 đối tượng (và gọi là x1), và số trung bình dựa trên 200 đối tượng (x2), câu hỏi đặt ra là giá trị của thông tin trong x2 cao gấp 2 lần so với giá trị thông tin trong x1? Câu trả lời là không. Trong thực tế, nếu chúng ta tăng lượng dữ liệu gấp 2 lần thì giá trị thông tin chỉ tăng khoảng 1.4 lần.  Nếu chúng ta tăng lượng dữ liệu gấp 3 lần thì lượng thông tin chỉ tăng 1.7 lần.

Từ đâu mà có các con số đó? Tác giả chỉ ra một sự thật hiển nhiên từ công thức tính sai số chuẩn (standard error). Sai số chuẩn bằng độ lệch chuẩn chia cho căn số bậc 2 của số cỡ mẫu; hay nói cách khác, độ lệch chuẩn bằng sai số chuẩn nhân cho căn số bậc 2 của lượng dữ liệu. Chẳng có gì mới ở đây, vì De Moivre đã chỉ ra từ 1738, và đó cũng chính là lí thuyết đằng sau Định lí giới hạn trung tâm (Central Limit Theorem).

Nhưng cái hay ở đây là tác giả Stigler đã đưa ra một cách diễn giải rất có ý nghĩa trong bối cảnh Dữ liệu Lớn (Big Data) đang rất thịnh hành như là một xu hướng thống kê “thời thượng”. Những người tin vào Dữ liệu Lớn nghĩ rằng bằng cách tăng lượng dữ liệu thì chúng ta sẽ có thông tin chính xác hơn, đáng tin cậy hơn. Đúng nhưng chưa đủ, bởi vì lượng thông tin không phải là hàm số tuyến tính của lượng dữ liệu.

Trụ cột 3 – likelihood: Thu nạp thông tin từ tình trạng bất định

Trong chương này, tác giả Stigler bàn về lí thuyết khả dĩ (Likelihood). Trong phần này, tác giả Stigler lí giải rằng chúng ta thu nạp thông tin từ dữ liệu qua các phương pháp như kiểm định thống kê (test of significance) và trị số P mà Ronald Fisher đề xướng từ năm 1925, cùng với những phương pháp sau này như khoảng tin cậy 95%. Các phương pháp này cũng đã giúp chúng ta giảm sự bất định trong cuộc sống. Kiểm định thống kê mà Ronald Fisher đề xướng không phải là ý tưởng mới, bởi vì phương cách này đã được John Arbuthnot áp dụng trước đó để tính toán xem hiện tượng sinh con trai nhiều hơn con gái là do ý của Thượng đế hay ngẫu nhiên!

Trụ cột 4 – intercomparison: So sánh. Bất cứ ai làm nghiên cứu khoa học cũng cần so sánh. Thường là so sánh hai nhóm xem có khác nhau một cách có hệ thống hay khác biệt chỉ là do yếu tố ngẫu nhiên. Phương pháp kiểm định t (do William Gosset đề xướng) là một phương pháp quen thuộc. Một phương pháp so sánh khác cũng hay được áp dụng là phân tích phương sai (ANOVA hay analysis of variance) do Ronald Fisher phát kiến. Trong khi các ngành khác, người ta so sánh với một chuẩn vàng (gold standard), thì khoa học thống kê so sánh thông tin trong cùng một dữ liệu, một nghiên cứu.

Những ai đọc sách sử thống kê học đều biết rằng William Gosset từng làm việc cho hãng bia Guiness, và công việc của ông lúc đó là kiểm nghiệm chất lượng bia. Trong nhiệm vụ đó, ông phải làm nghiên cứu nhưng thường dựa trên số mẫu nhỏ, và “cái khó ló cái khôn”, ông đã sáng chế ra phương pháp so sánh khác biệt dựa vào cỡ mẫu nhỏ. Trong một dịp nghỉ hè (sabbatical) ông thăm labo của Karl Pearson tại University College London, và viết bài báo nổi tiếng. Khi bài báo được gửi cho tập san thống kê học, ông không được kí tên thật (vì là nhân viên của Guiness), nên phải kí dưới bút danh là “Student”. Từ đó, khoa học có phương pháp kiểm định gọi là “Student’s test”.

Trụ cột 5 – regression: Thu nạp thông tin từ qui luật hồi qui về số trung bình

Một trong những phương pháp để chúng ta thu nạp thông tin rất hữu hiệu là mô hình hồi qui tuyến tính (linear regression model). Mô hình này là một triển khai từ phương pháp phân tích tương quan (correlation analysis). Phân tích tương quan là phương pháp do Nhà nhân chủng học trứ danh Francis Galton đề xướng từ cuối thế kỉ 19. Lúc đó, Galton đang nghiên cứu về ảnh hưởng của di truyền đến trí thông minh, và ông dùng chiều cao là một marker. Ông quan sát rằng những cặp cha mẹ có chiều cao thấp hơn trung bình thường sinh con có chiều cao cao hơn cha mẹ; ngược lại, những cặp vợ chồng có chiều cao cao thường sinh con có chiều cao thấp hơn họ. Đây là hiện tượng hồi qui về số trung bình, hay thuật ngữ tiếng Anh là “regression to the mean”.

Đây là một trong những chương hay nhất của cuốn sách. Tác giả bắt đầu với câu chuyện về Charles Darwin, một người em họ của Francis Galton. Darwin là người không thích toán, không phải ông kém khả năng về toán, mà ông cho rằng toán không giúp gì cho khoa học! Darwin đề ra ý tưởng gọi là “The Rule of Three” hay “Qui luật tam suất”. Ông nói nếu chúng ta biết rằng a/b = c/d và nếu chúng ta biết 3 số, thì chúng ta có thể xác định được số thứ 4. Nhưng trong thực tế, chúng ta cần nhiều tập hợp 4 giá trị để ước tính tham số của mô hình hồi qui tuyến tính. Nhưng ý tưởng về phân loại chủng vật của Darwin sau này lại nhờ các phương pháp phân tích đa biến giúp đỡ rất nhiều. Tất cả các phương pháp phân tích đa biến đều xuất phát từ mô hình hồi qui tuyến tính.

Trụ cột 6 – design: Thu nạp thông tin từ số ngẫu nhiên

Ngạc nhiên thay, chúng ta thu nạp thông tin cơ chế … ngẫu nhiên hoá. Ý nghĩa của trụ cột này cần một vài lời giải thích. Thiết kế là một phương pháp thu nạp thông tin có hệ thống. Nhưng thiết kế là phải dùng đến cơ chế ngẫu nhiên hoá (randomization). Chẳng hạn nếu chúng ta muốn đánh giá hiệu quả của một thuốc điều trị bệnh, chúng ta phải chia nhóm bệnh nhân một cách ngẫu nhiên để đảm bảo các nhóm đều có những yếu tố nhiễu giống nhau.

Thật ra, có thể xem thiết kế nghiên cứu là một cách tối ưu hoá. Trong chương này, tác giả Stigler dìu dắt chúng ta qua lịch sử của thiết kế nghiên cứu hết sức thú vị. Ý tưởng thiết kế nghiên cứu để thu nạp thông tin xuất phát từ sổ số bên Pháp vào năm 1757. Sổ số lúc đó đóng góp 4% cho ngân sách của Pháp (có lẽ giống như sổ số tràn lan hiện nay ở Việt Nam). Sau đó khi Ronald Fisher làm việc cho Trạm thí nghiệm Rothamsted, ông mới nghĩ ra phương pháp chia nhóm ngẫu nhiên (randomization). Trong một bài diễn thuyết trong Hội nghị Thống kê học Ấn Độ năm 1938, Fisher tuyên bố rằng “To consult the statistician after an experiment is finished is often merely to ask him to conduct a post mortem examination. He can perhaps say what the experiment died of” (Tư vấn nhà thống kê học sau khi thí nghiệm đã làm xong có thể ví von như là hỏi nhà thống kê học làm một cuộc giảo nghiệm tử thi. Nhà thống kê học có thể nói cái thí nghiệm chết vì lí do gì.) Ý của Fisher là muốn thí nghiệm có kết quả tốt và muốn thu nạp thông tin đáng tin cậy thì phải tư vấn nhà thống kê học trước khi làm thí nghiệm — một lời khuyên vẫn còn ý nghĩa thời sự ngày hôm nay. Nhưng việc này đòi hỏi nhà thống kê phải hiểu vấn đề khoa học và hiểu qui trình suy luận khoa học.

Trụ cột 7 – residual: Thu nạp thông tin từ … sai số

Khi nói “sai số” ở đây, tôi muốn nói đến dao động dư, tức “residuals” hay “error terms” trong mô hình hồi qui tuyến tính. Trong khoa học, thỉnh thoảng chúng ta phát hiện những cái bình thường từ những dữ liệu bất bình thường. Cái bất bình thường ở đây chính là residuals, là sai số từ mô hình. Chẳng hạn như để phát hiện những gen có liên quan đến bệnh lí, chúng ta sẽ mô hình phân bố của gen dựa vào một qui luật sinh học, và các dữ liệu nằm ngoài hay lệch so với giá trị kì vọng chính là những gen đáng quan tâm. Như vậy, chúng ta phát hiện cái cơ chế sinh học từ những dữ liệu và thông tin bất thường.

Điều này có ý nghĩa rất quan trọng cho nhà thống kê học. Đối với những nhà thống kê học được huấn luyện trong các đại học mà không có tương tác với khoa học, phân tích dao động dư là để kiểm định tính hợp lí của mô hình của họ. Nhưng đối với khoa học, điều đó chẳng quan trọng; điều quan trọng là những dữ liệu mà mô hình không giải thích được.

Cuốn sách được viết với văn phong khoa học nhưng vẫn hấp dẫn với người ngoài khoa học. Nhưng thỉnh thoảng, tác giả có vẻ giả định người đọc phải hiểu một số khái niệm thống kê học. Chẳng hạn như người đọc phải “động não” để hiểu L(Θ)=L(Θ)|Χ and Cov(L,W)=E{Cov(L,W|S)}+Cov(E{L|S}, E{W|S})! Nhưng may mắn thay, nhưng công thức loại này chỉ xuất một vài lần trong sách, và người đọc không cần hiểu chúng mà vẫn nắm được ý nghĩa đằng sau các mô hình thống kê.

Tóm lại, cuốn sách “The Seven Pillars of Statistical Wisdom” là một tác phẩm rất hay và đáng đọc. Tác phẩm này hay là vì tác giả đã đem đến cho chúng ta những cái nhìn rất tươi, với những lí giải rất mới về những phương pháp thống kê cổ điển. Chỉ trong 200 trang sách mà tác giả đã lược qua những điểm chính (7 điểm) trong suốt chiều dài lịch sử của chuyên ngành khoa học thống kê. Cuốn sách còn giúp cho chúng ta, những người làm nghiên cứu thực nghiệm, hiểu sâu hơn về các phương pháp thống kê, và qua đó giúp chúng ta suy nghĩ một cách thống kê, chứ không phải suy nghĩ như là một công cụ. Xin nhấn mạnh: tôi xem thống kê học là một cách suy nghĩ. Thay vì tập trung vào những chi tiết tính toán, chúng ta cần phải hiểu ý nghĩa đằng sau của các phương pháp và mô hình thống kê. Nếu bạn là nhà thống kê học, nhà khoa học thực nghiệm, cuốn sách The Seven Pillars of Statistical Wisdom” phải có trong tủ sách của các bạn.

===

(1) Stephen M. Stigler là giáo sư xuất sắc chuyên ngành sử thống kê thuộc Đại học Chicago. Ông tốt nghiệp tiến sĩ thống kê học từ Đại học California, Berkeley, nhưng sau đó ông chuyển về Đại học Wisconsin, Madison, và năm 1979 thì chuyển sang Đại học Chicago cho đến nay. Ông công bố nhiều công trình nghiên cứu về sử thống kê rất có giá trị. Những công trình này được đúc kết thành cuốn sách “The History of Statistics” (1986) và “Statistics on the Table” (1999). Ngoài vai trò là sử gia của khoa học thống kê, ông còn biên tập phần lí thuyết cho tập san Journal of the American Statistical Association (1979-1982). Với những thành tích đó, Stigler là người có thẩm quyền để viết về những ý nghĩa đằng sau 7 wisdom thống kê mà tôi đang giới thiệu đến các bạn.

——————&&&—————-

Google và sự thống trị của dòng chảy số liệu trong xã hội

Google và sự thống trị của dòng chảy số liệu trong xã hội

(Nguồn: cafef.vn)

Có lẽ, trong một tương lai không xa, con người sẽ quyết định sinh con, kết hôn hay tất cả những quyết định trọng đại khác dựa trên thuật toán và con số thay vì cảm xúc và hiểu biết của bản thân.

Hàng nghìn năm trước, loài người đã từng tin vào quyền năng của các vị thần và mỗi lựa chọn của con người là ý chí của một vị chúa trời nào đó. Đến thời kỳ hiện đại, các nhà khoa học và nhân quyền bắt đầu đã có những cuộc cách mạng khiến con người tin vào bản thân cũng như tự ra quyết định cho mình.

Theo đó, con người làm những gì họ thấy đúng hoặc thấy cần thiết và việc tuân theo cảm xúc, ý chí cá nhân là quyền tự do thiêng liêng của nhân loại.

Tuy nhiên, trước sự phát triển mạnh mẽ của công nghệ và các thuật toán, con người giờ đây bị chi phối và ảnh hưởng bởi số liệu, khảo sát hoặc những khuyến nghị từ chính những thuật toán do loài người tạo ra.

Loài người hiện đã sáng tạo ra những công nghệ phi thường, nhưng chính những kỹ thuật này khiến con người phụ thuộc vào nó mà không nhận ra. Mỗi ngày, mọi người đều bận rộn nhận vô số thông tin dữ liệu qua email, gọi điện thoại, đọc các bản báo cáo, xử lý số liệu và chuyển chúng qua các email, cuộc gọi.

Cứ như vậy, con người giờ đây trở thành một phần trong dòng chảy số liệu thay vì tạm ngừng lại một phút để tự hỏi họ thực sự muốn thứ gì.

Đã bao giờ các bạn tự ngồi xuống và xem công việc mình đang làm đóng góp thế nào cho thế giới? Các bạn đã bao giờ tự dừng lại một phút và tự hỏi mình có thực sự thích công việc này, chúng có phù hợp với mình hay không?

Hầu như tất cả mọi người chẳng mấy khi để ý, bởi họ còn đang bận làm việc, trả lời email, điện thoại và trên hết là kiếm tiền.

Cũng như trong lý thuyết về kinh tế với quan điểm bàn tay vô hình, sức mạnh của thị trường tự do chi phối mọi hoạt động kinh doanh, lý thuyết về tự do cá nhân ngày nay cũng nảy sinh quan điểm về bàn tay vô hình của dòng chảy số liệu.

Theo đó, việc kết nối các số liệu đang ngày càng trở nên quyền lực hơn và chúng buộc con người phải trôi theo. Sếp của bạn cần email báo cáo và bạn phải làm dù chẳng muốn. Đối tác của bạn muốn bạn gọi lại vào tối muộn dù bạn đã làm việc mệt nhoài…

Thậm chí, cuộc sống giờ đây gắn liền với số liệu, với mạng xã hội, với đủ thứ công nghệ. Nếu bạn trải nghiệm một thứ gì đó, bạn thường lưu nó lại, tải chúng lên mạng, chia sẻ chúng với mọi người. Hàng loạt những ứng dụng cho phép bạn quay video, upload ảnh hay chia sẻ những gì mình muốn với mọi người xung quanh ra đời và được sử dụng rộng rãi.

Máy móc giờ đây hiểu con người hơn bản thân họ

Quan điểm nghe theo trái tim của bản thân, sống theo phong cách đích thực của mình, tin tưởng vào những gì mà bản thân cảm thấy ngày nay đã không còn. Thay vào đó, mọi người tin vào số liệu, khảo sát, nghiên cứu, trào lưu trên mạng xã hội.

Thậm chí các nhà khoa học ngày nay cũng đã phát triển quan điểm cảm xúc của con người chỉ là do những hóc môn kích thích não bộ và hành vi của mọi người có thể dự đoán, tính toán được thông qua những phản ứng và điều kiện nhất định.

Theo đó, giả sử khi một người gặp nguy hiểm, não bộ dựa trên tình hình cụ thể và tính toán ra được khả năng tử vong là cao, qua đó tiết ra những hóc môn khiến con người có cảm xúc sợ hãi.

Như vậy, tính cách, cảm xúc hay suy nghĩ của một người hoàn toàn có thể sự đoán được nếu biết cách. Đây có lẽ là lý do khiến những trang mạng cá nhân như Facebook hay các kết quả lướt web của chúng ta trên Google lại đáng giá đến vậy.

Suy cho cùng, dữ liệu khách hàng của các công ty công nghệ này là cơ sở để hàng loạt những doanh nghiệp, chính phủ, tổ chức dự đoán hành vi, cảm xúc của khách hàng, cử tri hay đối tượng mà họ quan tâm.

Con người có thể quên những ứng dụng mà họ mua, những trang web mà họ đăng nhập hay những nút “thích” họ bấm trên Facebook, nhưng hệ thống máy tính thì không. Chúng lưu lại mọi hành động của người dùng và dự đoán hành vi cũng như mối quan tâm của họ.

Kể từ đây, cảm xúc và suy nghĩ của con người bị mặc định. Người tiêu dùng ngày nay khó chịu với những quảng cáo, những khuyến nghị mua hàng dựa trên kết quả tìm kiếm hay số liệu cung cấp từ Google và Facebook.

Tuy nhiên, không phải mọi người tiêu dùng đều khó chịu với những khuyến nghị này. Một ví dụ nổi tiếng là việc nữ diễn viên Angelina Jolie phẫu thuật ngực nhằm tránh rủi ro bị ung thư vú. Năm 2013, một cuộc thử nghiệm về gen cho thấy khả năng bị ung thư vú của Jolie là 87% và mặc dù không hề có biểu hiện nào của ung thư, nhưng Jolie vẫn quyết định phẫu thuật cắt bỏ nhằm phòng tránh nguy cơ.

“Bạn có thể không cảm thấy gì khác lạ nhưng nhiều rủi ro vẫn đang tiềm ẩn trong chính gen của bạn. Vì vậy, hãy làm gì đó ngay bây giờ”, cô Jolie nói.

Rõ ràng, thời kỳ khi người bênh cảm thấy không khỏe và đến bác sỹ để khám đã qua. Con người giờ đây tin vào số liệu và máy móc hơn chính bản thân họ.

Kết hôn theo Google

Có một mẩu chuyện khá thú vị về ảnh hưởng của công nghệ và số liệu ngày nay đối với đời sống xã hội con người.

Một cô gái đang có 2 người theo đuổi là John và Paul. Cô gái đó thích cả hai theo cách khác nhau nhưng phân vân không thể chọn lựa. Cuối cùng cô hỏi Google để cho lời khuyên và đây là câu trả lời:

“Chúng tôi đã dõi theo cô từ khi mới lọt lòng từ những bức ảnh cha mẹ cô đăng lên mạng hay các hồ sơ y tế. Chúng tôi cũng đã đọc toàn bộ các email, lưu lại những cuộc gọi, rà soát tất cả các bộ phim cô thích cũng như tra xét được mã ADN của cô.

Chúng tôi cũng có số liệu chính xác về mỗi cuộc hẹn hay mối tính mà cô trải qua. Đặc biệt, chúng tôi ghi lại được chính xác nhịp tim, huyết áp và lượng đường trong máu mỗi khi cô hẹn John hay Paul.

Dựa trên những số liệu này cùng những khảo sát về hàng triệu mối quan hệ trong nhiều thập niên qua, chúng tôi khuyến nghị cô yêu John với 87% khả năng 2 người sẽ gắn bó dài lâu trong tương lai.

Chúng tôi cũng biết là bạn không thích kết quả này bởi Paul đẹp trai hơn John và bạn khá coi trọng vẻ bề ngoài. Thậm chí chúng tôi biết trong thâm tâm bạn muốn chọn Paul. Tuy nhiên, số liệu cho thấy di truyền gen của bạn và số liệu sinh hóa của bạn có nguồn gốc từ Châu Phi. Tại thời điểm đó, những người Châu Phi chỉ đặt 35% tỷ lệ cho vẻ bề ngoài khi tìm bạn tình.

Các khảo sát của chúng tôi cũng cho tháy vẻ bề ngoài chỉ chiếm 14% thành công trong các cuộc yêu đương dài hạn. Vì vậy dù chúng tôi đã tính toán vẻ đẹp trai của Paul nhưng chúng tôi vẫn khuyến nghị bạn hẹn hò với John”.

Tất nhiên, Google hay những công ty công nghệ không phải vạn năng và cũng có thể sai. Tuy nhiên, do có kho dữ liệu khổng lồ nên nhiều người mặc định câu trả lời của Google đáng để xem xét thay vì dựa trên cảm xúc thực của bản thân. Kết quả là đôi khi con người mắc những sai lầm tệ hại khi nghe theo số liệu hay những trào lưu, khuyến nghị trên mạng.

Mặc dù vậy, số liệu và những ứng dụng ngày nay vẫn ảnh hưởng khá nhiều đến quyết định của con người bởi nhiều người vẫn không biết rõ bản thân. Họ không biết mình thực sự muốn gì và kiến thức hay sự hiểu biết của họ là có hạn. Điều này khiến đa số mọi người quyết định làm theo lời khuyên của công nghệ, ứng dụng, kho số liệu hay những khuyến nghị của cộng đồng mạng.

Có lẽ, trong một tương lai không xa, con người sẽ quyết định sinh con, kết hôn hay tất cả những quyết định trọng đại khác dựa trên thuật toán và con số thay vì cảm xúc và hiểu biết của bản thân. Nguyên nhân rất dễ hiểu, con số thì hoàn toàn rõ ràng và nếu sai lầm thì do thuật toán chưa chính xác, trong khi cảm xúc rất khó đoán và không nhiều người dám dũng cảm chấp nhận hậu quả do chính bản thân mình gây ra.

Theo Hoàng Nam

Trí thức trẻ/CafeBiz

———–&&———-

Phân phối ổn định (Stable distribution)

Phân phối ổn định (Stable distribution)

Phân phối ổn định là gì ?

Trong lý thuyết xác suất, một phân phối (hoặc một biến ngẫu nhiên) được gọi là ổn định  nếu mọi tổ hợp tuyến tính của hai phiên bản độc lập bất kỳ đều có cùng một phân phối, sai khác tham số vị trí (location parameter) và tham số tỉ lệ (scale parameter). Họ các phân phối ổn định cũng đôi khi được gọi là phân phối alpha-ổn định Lévy (Lévy alpha-stable distribution).

Trong 4 tham số xác định nên phân phối ổn định, gồm:  α  (stability), β (skewness), c (scale), μ (location); tham số ổn định α (0 <α ≤ 2) là quan trọng nhất. Phân phối ổn định có α = 2 tương ứng với phân phối chuẩn, và α = 1 tương ứng phân phối Cauchy. Các phân phối có phương sai không xác định khi α <2, và có trung bình không xác định α ≤ 1.

Tính chất quan trọng của phân bố ổn định là tính “hấp dẫn” (“attractors”) cho tổng chuẩn hóa của họ các biến ngẫu nhiên độc lập cùng phân phối (iid). Tính chất này tương tự /mở rộng  tính chất của phân phối chuẩn, và cũng có định lý giới hạn trung tâm (mở rộng) cho phân phối ổn định: Tổng chuẩn hóa của họ các biến ngẫu nhiên idd có phương sai vô hạn (thêm một số giả thiết) sẽ tiệm cận tới một phân phối ổn định.

Mandelbrot gọi phân phối ổn định có phương sai vô hạn (không là phân phối chuẩn, α <2) là phân phối Paretian ổn định; và gọi phân phối ổn định có tính “dương” (lệnh cực đại theo hướng dương, 1 <α <2) là phân phối Pareto-Levy .

B. Mandelbrot (và cả E. Fama) là người đã giới thiệu/cổ súy cho ứng dụng phân phối ổn định trong phân tích giá cổ phiếu và giá hàng hóa (xem: Financial models with long-tailed distributions and volatility clustering).

Tài liệu hướng dẫn thực hành phân phối ổn định trên R:



Các trường hợp đặc biệt và một số ứng dụng của phân bố Alpha ổn định (Trần Hữu Trung)

So sánh với phân bố Gauss, phân bố alpha ổn định có hàm đặc trưng tiệm cận đến 0 chậm hơn nhiều nên còn được gọi là phân bố có đuôi dài. Trong các trường hợp đặc biệt phân bố này có thể suy biến về phân bố Gauss. Trong khuôn khổ bài báo này chúng tôi tập trung nghiên cứu các trường hợp đặc biệt của phân bố alpha ổn định, tính chất và đặc điểm như hàm đặc trưng, khả năng suy biến. Chúng tôi cũng đề xuất một số ứng dụng của phân bố này trong tự nhiên.

  1. Đặt vấn đề

Khi nghiên cứu phân bố của một số hiện tượng trong tự nhiên, để lý giải các trường hợp đột biến, các nhà khoa học nhận thấy rằng phân bố chuẩn (phân bố Gauss) trong nhiều trường hợp không còn phù hợp. Ví dụ như khi lý giải hiện tượng biên độ nhiễu xung đo tại khu công nghiệp, xuất hiện những biên độ lên tới 5V, thậm chí 10V đỉnh đỉnh. Vấn đề đặt ra ở đây là cần mô tả những phân bố của các hiện tượng dạng này như thế nào? Paul Levy từ những năm 1960 đã đưa ra phân bố lệch Levy [2], đã được Mandelbroit [3] cùng John Nolan phát triển đề xuất một dạng phân bố mới – phân bố alpha ổn định. Gần đây ngày càng nhiều các nghiên cứu về phân bố alpha ổn định, một dạng phân bố Non- Gauss. Trong bài báo này, chúng tôi nghiên cứu về tính chất, các dạng suy biến cũng như một số ứng dụng cụ thể của phân bố alpha ổn định dựa trên các kết quả đo lường, khảo sát thực tế tại Việt Nam.

Bài viết đầy đủ: download



Phân phối ổn định và một số ứng dụng trong thống kê (Lã Thị Lương)

Trình bày một số kiến thức cơ sở về phân phối ổn định: định lý giới hạn trung tâm, phân phối ổn định, các cách tham số hóa khác đối với phân phối ổn định, ý nghĩa các tham số của phân phối ổn định, mômen của phân phối ổn định và các tính chất, phép biến đổi tuyến tính của các biến ngẫu nhiên ổn định, hàm mật độ xác suất và hàm phân phối của biến ngẫu nhiên ổn định. Tìm hiểu ước lượng các tham số của phân phối ổn định: phương pháp phân vị, phương pháp dựa trên hàm đặc trưng, phương pháp hợp lý cực đại, kiểm định đánh giá dáng điệu đuôi của phân phối ổn định. Triển khai mô hình thống kê đối với phân phối ổn định: mô hình tuyến tính với nhiễu ổn định, mô hình hồi quy đối với các sai số a− ổn định không chuẩn, mô hình ARMA. Áp dụng mô hình ARMA với sai số phân phối ổn định: Công ty cổ phần Xuyên Thái Bình và cổ phiếu PAN, mô hình ARMA đối với mã cổ phiếu PAN, ước lượng các tham số phân phối ổn định của phần dư, kiểm định tính phù hợp với phân phối ổn định của sai số.



Phân phối ổn định và các phương pháp ước lượng chỉ số đuôi của phân phối ổn định (Nguyễn Phúc Khang)

———–&&———-

Phân tích khác biệt với bài toán phân lớp

Phân tích khác biệt với bài toán phân lớp

(Tác giả: Nguyễn Văn Chức – Nguồn: bis.net.vn/forums)

Phân tích khác biệt (Discriminant Analysis) là gì?

Phân tích khác biệt (Discriminant Analysis -DA) là một phương pháp phân tích trong thống kê được dùng rất nhiều trong Data mining để phân loại các đối tượng (object) vào các nhóm dựa trên việc đo lường các đặc trưng của đối tượng. Tùy vào lĩnh vực nghiên cứu mà thuật ngữ Discriminant Analysis còn có nhiều tên gọi khác nhau nhưpattern recognition, supervised learning, or supervised classification .

Bài viết này giới thiệu phương pháp phân tích sự khác biệt tuyến tính (Linear Discriminant Analysis LDA) dùng để giải quyết bài toán phân lớp (classification) các đối tượng. Trong DA nếu số lớp nhiều hơn 2 được gọi là phân tích đa khác biệt (Multiple Discriminant Analysis -MDA).

Mục đích của DA là tìm cách phân loại các đối tượng (người, sự vật,…) vào một trong hai hay nhiều lớp đã được xác định trước dựa vào các đặt trưng (feature) dùng để mô tả đối tượng (ví dụ như các đặc trưng dùng để mô tả đối tượng khách hàng là giới tính, tuổi, nghề nghiệp, thu nhập,…)

Mục đích chính của phân tích sự khác biệt là:

1.      Tìm tập các thuộc tính tốt nhất để mô tả đối tượng. Vấn đề này còn gọi là trích chọn đặc trưng (Feature Extraction) hay lựa chọn đặc trưng (Feature Selection). Mục đích là phần này là từ tập các thuộc tính mô tả đối tượng ban đầu (thường rất lớn, có thể hàng trăm thuộc tính) tìm ra tập các thuộc tính tốt nhất để biểu diễn cho đối tượng nhằm làm giảm số chiều biểu diễn đối tượng từ đó làm giảm chi phí tính toán của các mô hình khai phá dữ liệu nhưng chất lượng của mô hình không bị giảm đi. Xem bài về trích chọn thuộc tính tại đây (http://bis.net.vn/forums/t/505.aspx)

2.      Tìm một mô hình tốt nhất để phân lớp các đối tượng.

Bài viết này chỉ tập trung vào việc ứng dụng DA để giải quyết bài toán phân lớp trong Data Mining.
Phân tích sự khác biệt tuyến tính (Linear Discriminant Analysis -LDA)

Để dễ hình dung ta xem xét một ví dụ đơn giản sau:

Giả sử ta muốn biết liệu một sản phẩm xà phòng là tốt (good) hay xấu (bad) dựa vào các đo lường trên các đặc trưng như trọng lượng (weight), khối lượng (volume), màu sắc (color), mùi (smell). Đối tượng (object) ở đây là xà phòng và thuộc tính phân lớp (class category attribute) ở đây có hai giá trị là “good” và “bad”. Các đặc trưng của đối tượng còn gọi là biến độc lập (Independent Variable) và thuộc tính phân lớp gọi là biến phụ thuộc (Dependent Variable).

Vì vậy trong phân tích sự khác biệt, biến phụ thuộc (Y) là lớp và biến độc lập (X) là các đặc trưng của đối tượng. Biến phụ thuộc luôn có kiểu là nominal trong khi biến độc lập có thể có kiểu bất kỳ nominal, ordinal, interval hay ratio.

Nếu ta giả sử thêm rằng các lớp có thể tách biệt bởi một hàm tuyến tính, chúng ta có thể sử dụng LDA để xây dựng hàm phân lớp. LDA xây dựng hàm phân lớp dựa trên sự kết hợp tuyến tính giữa các đặc trưng của đối tượng. Nếu chỉ có 2 đặc trưng thì hàm phân loại các lớp là đường (line). Nếu số đặc trưng là 3 thì hàm phân lớp là mặt phẳng (plane). Nếu số đặc trưng  nhiều hơn 3 thì hàm phân lớp là siêu mặt phẳng (hyper – lane)

Công thức LDA (LDA Formula)

LDA sử dụng điều kiện phân lớp để tối thiểu lỗi (Total error of classification –TEC) của mô hình. Nguyên tắc phân lớp đối tượng là gán một đối tượng vào một lớp với xác suất có điều kiện cao nhất (nguyên tắc này gọi là nguyên tắc Bayes, Bayes rule). Xem thêm bài viết ứng dụng lý thuyết Bayes trong phân lớp tại đây:http://bis.net.vn/forums/t/390.aspx

Nếu có g lớp, the Bayes’ rule sẽ gán đối tượng x vào lớp i nếu

Cho một tập các đo lường các đặc trưng của x, ta tìm max(P(i|x)) và gán đối tượng x vào lớp i. Tuy nhiên P(i|x) rất khó tính toán. Chúng ta có thể tính P(x|i), tức là xác suất xảy ra x khi đã biết lớp i. Chẳn hạn sau khi đã biết được lớp của sản phẩm xà phòng là good hay bad chúng ta có thể có được các đặc trưng mô tả đối tượng như weight, smell, color,… Nhưng điều ta cần là ngược lại. Có nghĩa là dựa vào các đặc trưng của đối tượng chúng ta phải xác định đối tượng với các đặc trưng đó thuộc lớp nào?

May mắn là trong lý thuyết Bayes có công thức mô tả mối quan hệ giữa 2 xác suất có điều kiện P(i|x) và P(x|i) như sau (CT1):

 Vấn đề là sử dụng CT1 để tính P(i|x) thông qua P(x|i) cũng rất khó triển khai trong thực tế vì để tính được P(x|i) chúng ta cần rất nhiều dữ liệu để tính tần số tương đối của mỗi lớp đối với mỗi đặc trưng của đối tượng.

Để dễ dàng hơn cho việc tính toán, các nhà thống kê và toán học đã tìm ra hàm chuyển đổi gọi là công thức phân tích sự khác biệt tuyến tính (Linear Discriminant Analysis formula) như sau (CT2):

Ví dụ về  Linear Discriminant Analysis

Đây là ví dụ về LDA minh họa về cách sử dụng LDA để phân lớp. Các công thức trên được minh họa tính toán trong MS Excel

Giả sử công ty “ABC” sản xuất sản phẩm rất đắt tiền và chất lượng cao. Sản phẩm được mô tả bởi 2 đặc trưng (feature) đó là Curvature (độ cong) và Diameter (đường kính). Kết quả kiểm soát chất lượng được kiểm tra bởi các chuyên gia được cho trong bảng dưới đây:

Giả sử bạn là cố vấn của công ty “ABC”, bạn được giao nhiệm vụ thiết lập mô hình giúp kiểm tra chất lượng tự động của các sản phẩm của công ty. Bây giờ có sản phẩm vớicurvature = 2.81 và diameter =5.46 (còn gọi là đối tượng cần xếp lớp, query point) thì kết quả sau khi kiểm tra chất lượng là Passed (đạt) hay Not Passed (không đạt). Nói cách khác là xếp lớp sản phẩm cần kiểm tra vào lớp Passed hay Not Passed.

Bạn có thể giải quyết vấn đề này bằng sử dụng Discriminant Analysis

Các bước tiến hành

Nếu ta vẽ 7 sản phẩm (đối tượng) trên theo 2 đặc trưng curvature (trục x) và diameter (trục y) ta thấy rằng ta có thể vẽ một đường để tách biệt giữa lớp passed (gồm 4 sản phẩm passed) và lớp Not Passed (gồm 3 sản phẩm Not passed). Vấn đề là tìm một đường phân tách 2 lớp và quay các thuộc tính để đạt được khoảng cách giữa các lớp là lớn nhất và khoảng cách giữa các đối tượng trong cùng 1 lớp là nhỏ nhất.

Biểu diễn các đối tượng dưới dạng ma trận như sau:

Ma trận các đặc trưng (independent variables) x. Mỗi dòng biểu diễn 1 đối tượng, mỗi cột biểu diễn 1 feature.

Ma trận các lớp y chứa các lớp của đối tượng (biến phụ thuộc –  dependent variable)

Trong ví dụ này ta có ma trận x và y như sau:

 xk là dòng thứ k trong ma trận x. ví dụ x3= [3.75               5.65]

g là số các lớp trong y. Trong ví dụ trên ta có g=2

xi ma trận chứa các đặc trưng của các đối tượng thuộc lớp i. Trong ví dụ trên ta có 2 lớp nên ta tách thành 2 ma trận x1 và x2 như sau:

 

Ma trận hiệp phương sai của lớp i được tính theo công thức sau:

Nói thêm về hiệp phương sai (covariance): Trong lý thuyết xác suất và thống kê, hiệp phương sai là độ đo sự biến thiên cùng nhau của hai biến ngẫu nhiên (phân biệt với phương sai (variance) – đo mức độ biến thiên của một biến. Nếu 2 biến có xu hướng thay đổi cùng nhau (nghĩa là, khi một biến có giá trị cao hơn giá trị kỳ vòng thì biến kia có xu hướng cũng cao hơn giá trị kỳ vọng), thì hiệp phương sai giữa hai biến này có giá trị dương. Ngược lại, nếu một biến nằm trên giá trị kì vọng còn biến kia có xu hướng nằm dưới giá trị kì vọng, thì hiệp phương sai của hai biến này có giá trị âm. Các biến ngẫu nhiên có hiệp phương sai bằng không được gọi là không tương quan (uncorrelated)

Ma trận hiệp phương sai (covariance matrix) của m biến ngẫu nhiên là một ma trận vuông hạng (m × m), trong đó các phần tử nằm trên đường chéo lần lượt là phương saitương ứng của các biến này ( chú ý rằng Var(X) = Cov(X,X)), và các phần tử còn lại (không nằm trên đường chéo) là các hiệp phương sai của đôi một hai biến ngẫu nhiên khác nhau.

Xem chi tiết về cách tính covariance matrix tại đây: http://www.aiaccess.net/English/Glossaries/GlosMod/e_gm_covariance_matrix.htm

Trong ví dụ trên ta tính giá trị cho mỗi bộ (r,s) như sau:

Tổ chức dữ liệu và tính toántrong Excel như sau:

Chú ý một số công thức liên quan đến ma trận là công thức mảng nên phải bấm Ctrl + Shift + Enter để thực hiện.

Theo tính toán thì đối tượng cần phân lớp (Query Point) với curvature = 2.81 và diameter =5.46 được xếp vào lớp 2 (Not passed) vì giá trị Discriminant function của lớp 2 (f2) lớn hơn so với f1 (44.085>44.049). Điều đó có nghĩa là sản phẩm được kiểm tra không đạt chất lượng.

Đồ thị sau cho ta thấy một cách trực quan rằng Query Point thuộc lớp Not Passed 

—————&&—————-