Kho hàng của Amazon trông cực kỳ lộn xộn, nhưng thực ra đó lại là đỉnh cao của nghệ thuật lưu trữ bằng công nghệ

Kho hàng của Amazon trông cực kỳ lộn xộn, nhưng thực ra đó lại là đỉnh cao của nghệ thuật lưu trữ bằng công nghệ

(Nguồn: http://cafef.vn)

Mọi món đồ trong kho của Amazon đều được sắp xếp không theo thứ tự, búp bê đồ chơi có thể được xếp cùng ngăn với bàn chải đánh răng và tiểu thuyết, thế nhưng nó lại là sự đỉnh cao của nghệ thuật lưu trữ thời công nghệ.

Mỗi khi nhắc tới hình ảnh của những kho chứa hàng, đặc biệt là kho chứa của những công ty bán lẻ trực tuyến hàng đầu như Amazon , người ta sẽ liên tưởng ngay tới những giá, kệ ngăn nắp với nhãn ghi tên sản phẩm và được bộ trí thẳng tắp, vuông vắn như ô bàn cờ.

Mặc dù vậy, điều này không đúng sự thật với Amazon, khi mà kho hàng của họ được bố trí một cách hết sức ngẫu nhiên và lộn xộn đến khó ngờ.

Mỗi kho hàng rộng tới cả chục thậm chí là trăm nghìn m2 và rất nhiều người làm việc bên trong nó.

 Kho hàng của Amazon khi mà mọi thứ được xếp lung tung, không theo bất kì trình tự hay danh mục nào.

Kho hàng của Amazon khi mà mọi thứ được xếp lung tung, không theo bất kì trình tự hay danh mục nào.

Thế nhưng, mọi thứ đều có lý do của nó

Nhân viên làm trong kho hàng của Amazon được phép cất đồ dùng ở bất kì nơi nào họ thích, thế nhưng nó không có nghĩa là họ có thể ném bừa đồ dùng ở bất kì đâu rồi bỏ đi. Mỗi khi để một món đồ lên kệ, nó sẽ quét một mã vạch lên món đồ đó, mã vạch này sẽ được chuyển về máy chủ của Amazon từ đó tạo thành một hệ thống bản đồ cho người lấy hàng.

Điều này khiến cho những nhân viên làm việc tại Amazon hết sức nhàn hạ, họ có thể quay vài vòng gần những kệ trống và lưu trữ toàn bộ đồ trong xe đẩy của mình. Không như phương pháp lưu trữ truyền thống khi mà họ muốn cất một chiếc đĩa chẳng hạn, họ phải di chuyển tới một khu vực và rồi lại phải tiếp tục di chuyển tới khu vực khác để cất một món đồ khác.

Với những kho hàng có diện tích lớn như thế này, việc cất từng món đồ ở khu vực cố định sẽ rất tốn thời gian, công sức của nhân viên.

Bằng việc sử dụng phương pháp lưu trữ này, những khay, kệ chứa của Amazon được lấp kín rất nhanh chóng, một số nhân viên còn cố tình nhồi nhét thêm để đầy kệ, nó giúp cho các ô trống khác thừa nhiều chỗ hơn, lưu trữ được nhiều hơn và quá trình chuyển hàng vào kho diễn ra nhanh chóng.

Trong kho của Amazon, búp bê có thể được xếp cùng ngăn với tiểu thuyết, máy sấy xếp cùng khăn mặt… mọi thứ được xếp một cách ngẫu nhiên nhất có thể.

Mọi thứ còn tuyệt vời hơn mỗi khi xuất kho, lấy hàng

Việc lấy đồ trong kho mới là thứ đang đề cập, mỗi đơn hàng của khách sẽ được nạp vào thiết bị cầm tay của nhân viên kho. Hệ thống sẽ tự động xác định cho họ khoảng cách gần nhất giữa những món đồ ngẫu nhiên bên trong nhà kho này để họ hoàn thành “cua lấy đồ” của mình trong khoảng thời gian ngắn nhất.

Thời gian lấy đồ ngắn đồng nghĩa với thời gian món hàng tới tay khách ngắn hơn, khách hàng hài lòng hơn.

Mọi thứ đều được tự động hoá thế nên nhân viên chỉ cần đi theo chỉ dẫn của thiết bị cầm tay là có thể hoàn thành công việc của mình.

Sự ngẫu nhiên trong cách lưu trữ của Amazon được coi là hệ thống lưu trữ hoàn hảo nhất trên thế giới. Nó mang lại rất nhiều lợi ích cho những kho hàng có diện tích lớn.

Tiết kiệm lượng lưu trữ: Bất kì ô trống nào đều được lấp đầy, lượng lưu trữ của kho được tăng cường rất lớn. Amazon cho rằng chỉ với phương pháp sắp xếp ngẫu nhiên này, kho của họ đã chứa được nhiều gấp 2 lần so với cách thức lưu trữ truyền thống.

Sự chính xác khi lấy hàng: Mọi thứ đều được thực hiện bởi máy móc, yếu tố con người được giảm tối thiểu, nhân viên chỉ cần làm theo chỉ dẫn của hệ thống, đi theo quãng đường ngắn nhất, lấy món hàng và rồi mang đi gửi cho khách. Nó giúp giảm thiểu rủi ro như lấy sai màu quần áo, sai kích thước hay nhiều vấn đề khác.

Sự đơn giản: Nhân viên kho thường xuyên thay đổi, nếu theo quy tắc truyền thống, một nhân viên mới vào sẽ mất cả tháng trời chỉ để học thuộc các khu vực chứa hàng. Cách lưu trữ của Amazon đơn giản hơn, dễ thực hiện hơn vì luôn luôn làm theo cái máy. Nhân viên được phép lười!

Giảm thiểu gánh nặng quản lý kho: Thay vì có người nhập sổ sách, đếm số hàng còn lại, mọi thứ đều được tự động hoá bởi máy tính, chỉ với vài lần bấm chuột, nhà quản lý có thể tìm ra chính xác “chiếc áo màu đỏ size XL với cổ V” này còn số lượng bao nhiêu trong kho mà không cần vào kho kiểm tra độ chính xác.

Theo Van Vu

Trí thức trẻ

———————&&&———————

Những cột mốc quan trọng của Học Máy

Tóm lược lịch sử phát triển của ngành Machine Learning

(Tác giả: Bernard Marr – Nguồn: https://techmaster.vn)

Sẽ là rất thú vị nếu đặt câu hỏi liệu giấc mơ về người máy của con người có thành sự thật, nhưng trên thực tế khoa học đã phát triển đến một điểm mà nó bắt đầu trùng với khoa học viễn tưởng. Không, chúng ta không có những người máy tự động có thể chống lại con người – chưa – nhưng chúng ta đang ngày càng tiến gần hơn với những gì người ta có xu hướng gọi là “trí tuệ nhân tạo.”

Machine Learning là một tập con của trí tuệ nhân tạo, nơi mà các thuật toán máy tính được sử dụng để tự học từ dữ liệu và thông tin. Trong machine learning, các máy tính không cần phải được lập trình một cách rõ ràng nhưng có thể tự thay đổi và cải thiện các thuật toán của chúng.

Hiện nay, các thuật toán machine learning cho phép máy tính có thể giao tiếp với con người, xe hơi tự lái, viết và xuất bản tường thuật các trận đấu thể thao, và tìm thấy kẻ tình nghi khủng bố. Tôi tin chắc rằng machine learning sẽ tác động một cách sâu sắc đến mọi ngành công nghiệp và các công việc liên quan đến chúng, đó là lý do tại sao mọi nhà quản lý cần phải có ít nhất một số kiến thức về machine learning và nó đã phát triển như thế nào.

Trong bài viết này tôi sẽ cung cấp một sơ lược theo thời gian về lịch sự hình thành của machine learning cũng như các sự kiện quan trọng gần đây nhất.

1950 – Nhà bác học Alan Turing đã tạo ra “Turing Test (phép thử Turing)” để xác định xem liệu một máy tính có trí thông minh thực sự hay không. Để vượt qua bài kiểm tra đó, một máy tính phải có khả năng đánh lừa một con người tin rằng nó cũng là con người.

1952 – Arthur Samuel đã viết ra chương trình học máy (computer learning) đầu tiên. Chương trình này là trò chơi cờ đam, và hãng máy tính IBM đã cải tiến trò chơi này để nó có thể tự học và tổ chức những nước đi trong chiến lược để giành chiến thắng.

1957 – Frank Rosenblatt đã thiết kế mạng nơron (neural network) đầu tiên cho máy tính, trong đó mô phỏng quá trình suy nghĩ của bộ não con người.

1967 – Thuật toán “nearest neighbor” đã được viết, cho phép các máy tính bắt đầu sử dụng những mẫu nhận dạng (pattern recognition) rất cơ bản. Nó được sử dụng để vẽ ra lộ trình cho một người bán hàng có thể bắt đầu đi từ một thành phố ngẫu nhiên nhưng đảm bảo anh ta sẽ đi qua tất cả các thành phố khác theo một quãng đường ngắn nhất.

1979 – Sinh viên tại trường đại học Stanford đã phát minh ra giỏ hàng “Stanford Cart” có thể điều hướng để tránh các chướng ngại vật trong một căn phòng.

1981 – Gerald Dejong giới thiệu về khái niệm Explanation Based Learning (EBL), trong đó một máy tính phân tích dữ liệu huấn luyện và tạo ra một quy tắc chung để nó có thể làm theo bằng cách loại bỏ đi những dữ liệu không quan trọng.

1985 – Terry Sejnowski đã phát minh ra NetTalk, nó có thể học cách phát âm các từ giống như cách một đứa trẻ tập nói.

1990s – Machine Learning đã dịch chuyển từ cách tiếp cận hướng kiến thức (knowledge-driven) sang cách tiếp cận hướng dữ liệu (data-driven). Các nhà khoa học bắt đầu tạo ra các chương trình cho máy tính để phân tích một lượng lớn dữ liệu và rút ra các kết luận – hay là “học” từ các kết quả đó.

1997 – Deep Blue của hãng IBM đã đánh bại nhà vô địch cờ vua thế giới.

2006 – Geoffrey Hinton đã đưa ra một thuật ngữ “deep learning” để giải thích các thuật toán mới cho phép máy tính “nhìn thấy” và phân biệt các đối tượng và văn bản trong các hình ảnh và video.

2010 – Microsoft Kinect có thể theo dõi 20 hành vi của con người ở một tốc độ 30 lần mỗi giây, cho phép con người tương tác với máy tính thông qua các hành động và cử chỉ.

2011 – Máy tính Watson của hãng IBM đã đánh bại các đối thủ là con người tại Jeopardy.

2011 – Google Brain đã được phát triển, và mạng deep nơron (deep neural network) của nó có thể học để phát hiện và phân loại nhiều đối tượng theo cách mà một con mèo thực hiện.

2012 – X Lab của Google phát triển một thuật toán machine learning có khả năng tự động duyệt qua các video trên YouTube để xác định xem video nào có chứa những con mèo.

2014 – Facebook phát triển DeepFace, một phần mềm thuật toán có thể nhận dạng hoặc xác minh các cá nhân dựa vào hình ảnh ở mức độ giống như con người có thể.

2015 – Amazon ra mắt nền tảng machine learning riêng của mình.

2015 – Microsoft tạo ra Distributed Machine Learning Toolkit, trong đó cho phép phân phối hiệu quả các vấn đề machine learning trên nhiều máy tính.

2015 – Hơn 3.000 nhà nghiên cứu AI và Robotics, được sự ủng hộ bởi những nhà khoa học nổi tiếng như Stephen Hawking, Elon Musk và Steve Wozniak (và nhiều người khác), đã ký vào một bức thư ngỏ để cảnh báo về sự nguy hiểm của vũ khí tự động trong việc lựa chọn và tham gia vào các mục tiêu mà không có sự can thiệp của con người.

2016 – Thuật toán trí tuệ nhân tạo của Google đã đánh bại nhà vô địch trò chơi Cờ Vây, được cho là trò chơi phức tạp nhất thế giới (khó hơn trò chơi cờ vua rất nhiều). Thuật toán AlphaGo được phát triển bởi Google DeepMind đã giành chiến thắng 4/5 trước nhà vô địch Cờ Vây.

Vậy thì chúng ta đã tiến gần hơn đến trí tuệ nhân tạo? Một số nhà khoa học cho rằng đó thực sự là một câu hỏi sai.

Họ tin rằng một máy tính sẽ chẳng bao giờ “nghĩ” theo cách của bộ não con người, và việc so sánh giữa khả năng phân tích tính toán và thuật toán của một máy tính với tâm trí con người thì cũng giống như việc so sánh quả táo và quả cam vậy.

Bất chấp điều đó, các khả năng của máy tính trong việc xem, hiểu và tương tác với thế giới xung quanh chúng đang phát triển với một tốc độ đáng kể. Và khi lượng dữ liệu chúng ta tạo ra tiếp tục lớn lên theo cấp số nhân, thì khả năng của máy tính trong việc xử lý và phân tích – học từ kết quả đó – cũng ngày càng phát triển và mở rộng.

Bài viết được dịch từ trang web Forbes

———————-&&&——————–

Case Study kinh điển về quảng cáo hiệu quả (Performance Based Marketing) – D. Trump dựa vào dữ liệu người dùng (user data) & tiếp thị trực tuyến (online marketing) để đắc cử tổng thống như thế nào?

Case Study kinh điển về quảng cáo hiệu quả (Performance Based Marketing) – D. Trump dựa vào dữ liệu người dùng (user data) & tiếp thị trực tuyến (online marketing) để đắc cử tổng thống như thế nào?

(Nguồn: https://www.urekamedia.com)

Bạn đã nghe về Dữ liệu người dùng (User Data), Dữ liệu lớn (Big Data), Nền tảng quản lý phân tích dữ liệu người dùng (DMP – Data Management Platform) & Quảng cáo Hiệu quả (Performance Based Marketing) mà vẫn chưa có một hình dung nào rõ ràng rằng chúng có thể làm gì? Vậy thì với bài viết sau bạn sẽ hình dung rõ hơn chúng có thể làm gì và chúng quan trọng như thế nào.

Trong chiến dịch tranh cử tổng thống Mỹ 2016 vừa rồi có thể có một số tin tức giả mạo trên Facebook, nhưng sức mạnh của nền tảng quảng cáo trực tuyến mà cụ thể là quảng cáo Facebook để tác động ảnh hưởng đến cử tri là sự thực, rất đáng suy ngẫm.

Đây là cách mà đội ngũ vận hành chiến dịch tranh cử của Trump đã sử dụng dữ liệu để nhắm chọn mục tiêu người Mỹ gốc Phi và phụ nữ trẻ với chiến dịch quảng cáo Facebook và Instagram trị giá 150 triệu đôla Mỹ (*) trong những tuần cuối cùng của cuộc bầu cử. Và đây có thể là chiến dịch vận động làm thay đổi suy nghĩ của cử tri thành công nhất trong lịch sử bầu cử nước Mỹ từ trước tới nay.

Trong suốt chiến dịch, bộ xậu của Donald J. Trump rất khôn ngoan sử dụng quảng cáo Facebook nhằm tạo độ phủ (reach) tới những người ủng hộ ông và cũng là để quyên góp tiền hỗ trợ chiến dịch. Tuy nhiên ban đầu, theo các số liệu khảo sát thì đều cho kết quả Trump đang gặp bất lợi, thậm chí là sự ủng hộ từ các cử tri cũng rất ít, nên đội ngũ vận hành chiến dịch tranh cử của Trump đã triển khai cơ sở dữ liệu tùy chỉnh có tên Project Alamo, trong đó chứa hồ sơ chi tiết của 220 triệu cử tri Mỹ.

Với Project Alamo như là vũ khí chính, bộ phận phụ trách kỹ thuật số của Trump đã âm thầm thực hiện chiến dịch quảng cáo Facebook nhằm làm mất niềm tin, giảm sự ủng hộ của các cử tri vào bà H. Clinton. Các chiến dịch kiểu như vậy đã ngốn khá nhiều tiền bạc và nguồn lực của Trump vào các quảng cáo chính trị trên Facebook, Instagram, mạng lưới người dùng Facebook, …

Làm giảm niềm tin, sự ủng hộ. Giảm số phiếu bầu phổ thông (cho H. Clinton)

Chúng tôi có ba chiến dịch nhằm làm giảm niềm tin của cử tri” – một quan chức cấp cao trong bộ máy vận động tranh cử của Trump đã tiết lộ với các phóng viên từ Bussiness Week – “Các chiến dịch làm giảm niềm tin này nhắm vào ba nhóm cử tri mà H. Clinton buộc phải có phiếu bầu từ họ với tỉ lệ áp đảo, đó là: Người da trắng theo chủ nghĩa lý tưởng, Phụ nữ trẻ và Người Mỹ gốc Phi”.

Mục tiêu là của các chiến dịch là nhằm làm giảm tối đa có thể số phiếu bầu phổ thông cho bà H. Clinton. “Chúng tôi biết nó sẽ hiệu quả bởi vì chúng tôi đã vận hành thử trên mô hình” – quan chức cấp cao của Trump nói thêm – “Nó sẽ ảnh hưởng đáng kể niềm tin của những cử tri thuộc nhóm này với các bài vận động tranh cử của bà ấy

Ví dụ: Bộ phận phụ trách kỹ thuật số của Trump đã tạo ra một đoạn phim hoạt hình có hình ảnh H. Clinton đang nói “Thú ham ăn” (nguyên văn là: super predator), thậm chí đoạn phim còn sử dụng cả âm thanh gốc được cắt ra khi bà nói câu này vào năm 1996, kèm theo đó là những phụ đề trong đoạn phim như: Hillary nghĩ Người Mỹ gốc Phi là thú ham ăn. Sau đó, đoạn phim hoạt hình này sẽ được chuyển tải tới những đối tượng được nhắm chọn là Người Mỹ gốc Phi thông qua Facebook bằng một cách thức gọi là “dark post” – nôm na thì cách thức này sẽ không hiển thị công khai bài viết, nó chỉ hiển thị cho những đối tượng mà nhóm của Trump đã nhắm chọn.

Thực tế thì Facebook hiện tại từ chối phổ biến đoạn phim hoạt hình quảng cáo “Hillary nghĩ Người Mỹ gốc Phi là thú ham ăn” đến các cử tri, hoặc bất kỳ quảng cáo chính trị nào thể hiện những quan điểm tiêu cực của ứng viên tổng thống. Tuy nhiên, Facebook cũng từ chối cung cấp chi tiết về cách thức nhắm chọn giới tính, dân tộc, hoặc bất kỳ thông số chi tiết nào để phục vụ cho việc quảng cáo nhắm chọn người dùng cho các nhà lập pháp. Do đó, cho đến khi có các bộ luật mới được qui định chặt chẽ hơn, còn không thì chắc chắn những quảng cáo chính trị nhắm chọn mục tiêu mà nhóm Trump đã thực hiện là hoàn toàn phù hợp với pháp luật của liên bang.

Do những việc đó, nền tảng quảng cáo của Facebook gần đây cũng đã bị chỉ trích mạnh mẽ từ Quốc hội vì cho cho phép các nhà quảng cáo nhắm mục tiêu người Mỹ gốc Phi, người Mỹ gốc Á, và người Mỹ nói tiếng Latin (nói chung là nhóm Hispanic). Đối mặt làn sóng chỉ trích mạnh mẽ này, Facebook tuần trước buộc phải tuyên bố sẽ xây dựng một hệ thống tự động có chức năng nhận diện được các quảng cáo mang tính phân biệt chủng tộc và không phù hợp với luật; và thời điểm hệ thống mới sẽ được đưa vào vận hành được dự đoán là đầu năm 2017.

Sau bầu cử, Mark Zuckerberg – CEO của Facebook – đã nói rằng “Tôi nghĩ cái ý tưởng tin tức giả mạo trên Facebook làm ảnh hưởng đến cuộc bầu cử dù nghĩ thế nào thì cũng thực sự là một ý tưởng khá điên rồ“. Nhưng ông cũng có ý nhún nhường khi nhận định rằng: chiến thắng của Trump chứng tỏ quảng cáo của Facebook cũng có thể ảnh hưởng tới bầu cử.

Tuy nhiên, Mark sẽ không nói “ý tưởng khá điên rồ” khi biết rằng nền tảng quảng cáo của Facebook thực sự vô cùng hiệu quả, nó có thể tác động các người dùng Facebook & khiến cho họ nhấp chuột (click), mua (buy), hoặc thậm chí là bỏ phiếu (vote). Doanh thu của Facebook là 17,9 tỷ đô-la Mỹ trong năm 2015, và theo báo cáo tài chính thường niên thì họ cũng thừa nhận rằng: “nguồn thu chính là từ quảng cáo. Những sự giảm sút các nhà quảng cáo, hoặc việc các nhà quảng cáo giảm chi phí quảng cáo thực sự có thể gây tổn hại đến việc kinh doanh”.

Bộ phận phụ trách kỹ thuật số hoành tráng của Trump

Động cơ của các chiến dịch vận động tranh cử trong môi trường trực tuyến của Trump được gọi là Bộ phận phụ trách kỹ thuật số (nguyên văn: Digital Operations Division). Trụ sở chính đặt tại San Antonio, có 100 nhân viên, trong đó bao gồm: các lập trình viên, các nhà phát triển web, kỹ sư mạng, các nhà khoa học dữ liệu, các nghệ sĩ đồ họa, copywriter, và những người phụ trách mua tài nguyên quảng cáo (media buyers). Với người điều phối, điều hành của bộ phận này là Brad Parscale – một doanh nhân thành đạt và là người sáng lập của công ty tiếp thị Giles-Parscale Inc.

Parscale làm việc chặt chẽ với Trump và là một trong vài người than tín được Trump tin tưởng cho quản lý tài khoản Twitter của ông là @realDonaldTrump. Việc thiếu kinh nghiệm thực hiện những chiến dịch tranh cử như thế này của Parscale thực ra là một trong những vốn quý của ông vì ông luôn thắc mắc và luôn tự hỏi: “Tôi luôn luôn tự hỏi tại sao mọi người cứ nghĩ những chiến dịch vận động tranh cử là một cái gì đó huyền bí,” – Parscale – “Nó cũng tương tự như những chiến dịch tiếp thị thương mại, chỉ có tên chiến dịch có vẻ ghê gớm hơn mà thôi.” Dựa vào những kỹ năng sành sỏi của Parscale, họ đã tạo ra các chiến dịch gây quỹ tranh cử hiệu quả thông qua Facebook và Email Marketing; và cũng chính Bộ phận phụ trách kỹ thuật số là nơi ngốn nhiều chi phí nhất trong chiến dịch vận động tranh cử của Trump.

Phóng viên Sasha Issenberg và Joshua Green – Mảng chuyên đề kinh doanh BussinessWeek của Bloomberg – còn tiết lộ Tổng thống đắc cử Trump cực kỳ quan tâm đến các chiến dịch vận động tranh cử trực tuyến và các chiến dịch gây quỹ cho ông rằng: “Trump, bản thân ông là một người ham học hỏi. Parscale sẽ ngồi với ông trên máy bay để chia sẻ những thông tin, hiểu biết mới nhất về tập đối tượng nhắm chọn thu thập được với số lượng ngày càng nhiều và 230 triệu đô-la Mỹ họ đã quyên góp được cho chiến dịch của Trump“.

100.000 trang web trong chiến dịch vận động cho Trump

Thực tế những ngày đầu, nhiệm vụ của Parscale là phải tăng được số lượng người ủng hộ, hỗ trợ cho Trump với ngân sách khá nhỏ. Parscale đã tính toán và quyết định dành tất cả chi phí có được để quảng cáo trên Facebook.Thực tế khi Parscale sử dụng laptop để thiết lập chiến dịch quảng cáo Facebook đầu tiên có giá trị 2 triệu đô-la Mỹ thì ông đã khởi đầu một chiến dịch tranh cử mà kết quả của nó thực sự đáng kinh ngạc.

Bước đầu, Parscale tải lên nền tảng quảng cáo Facebook thông tin những người ủng hộ Trump (bao gồm: tên, địa chỉ email và số điện thoại) mà ông đã biết. Sau đó, nhóm của Parscale tiến hành việc khớp thông tin (matching) của những người đã được tải lên với các tài khoản đã có trên Facebook bằng chức năng “Audience Targeting Options”. Với tính năng này của Facebook, các nhà quảng cáo có thể nhắm chọn mục tiêu & quảng cáo có thể được chuyển tải đến những người dùng dựa trên các hoạt động (activity), mối quan hệ gia đình (ethic affinity), hay là vị trí (location) và nhân khẩu học (demographic) như tuổi, giới tính và sự quan tâm (interest). Thậm chí có thể nhắm chọn mục tiêu quảng cáo của bạn đến mọi người dựa trên những gì họ thực hiện trên môi trường trực tuyến ngay cả khi họ tắt Facebook.

Parscale sau đó còn mở rộng nhóm đối tượng nhắm chọn trên Facebook bằng mô hình “Lookalike Audiences” (Đối tượng tương đồng) nhằm tìm kiếm và chuyển tải quảng cáo tới những người có hành vi, đặc điểm … tương đồng với những người ủng hộ và bầu cho Trump.

Cuối cùng, Parscale sử dụng công cụ “Brand Lift” của Facebook để tiến hành khảo sát và đo lường mức độ thành công của quảng cáo.

Parscale cũng đã cho phát triển và triển khai phần mềm nhằm tối ưu hóa các thiết kế quảng cáo và thông điệp quảng cáo Facebook của Trump. Nói về việc này, phóng viên Christopher Mims – Wall Street Journal – đã viết về trải nghiệm này như sau: “Vào một ngày trong tháng 8, bộ xậu của Trump đã chuyển tải quảng cáo đến hơn 100.000 website khác nhau cho từng người dùng mà họ thu thập được từ Facebook, mỗi mẫu quảng cáo, mỗi thông điệp khác nhau được dùng để chuyển tải tới những tập khách hàng đã được phân loại (segmentation) phù hợp khác nhau nhằm thuyết phục cử tri bầu cho Trump. Tổng cộng, Bộ phận phụ trách kỹ thuật số của Trump đã tạo ra được hơm 100.000 mẩu quảng cáo (hình ảnh, nội dung, video…).

Trung tâm dữ liệu

Sau đề Trump giành chiến thắng trong cuộc đề cử nội bộ của đảng Cộng Hòa, Parscale được giao nhiệm vụ xây dựng và phát triển mạnh thêm các chiến dịch quảng cáo chính trị nhắm chọn cử tri. Và Ủy ban Quốc gia đản Cộng Hòa (RNC – Republican National Committee) với chủ tịch Reince Preibus lúc này nổi lên như một bên cung cấp dữ liệu chính cho chiến dịch của Trump; ủy ban này đã trở nên nổi tiếng sau khi đầu tư hơn 100 triệu đô-la Mỹ cho trung tâm dữ liệu của đảng kể từ sau chiến dịch tranh cử thất bại của Mitt Romney vào 2012.

Preibus và nhóm của ông – RNC – tới San Antonio để gặp và thảo luận với Parscale về việc hợp tác giữa 2 bên. Tại đây, trong nhà hàng phong cách Mexico yêu thích của Parscale, hai bên đã tiến tới thống nhất điều khoản hợp tác mà theo đó bộ xậu của Trump được phép tiếp cận danh sách 6 triệu người trong danh sách đóng góp quỹ cho đảng Cộng Hòa để tiến hành gây quỹ cho chiến dịch của Trump, tuy nhiên phía Trump chỉ được phép lấy 20% trên tổng số tiền gây quỹ được từ danh sách này, còn lại 80% là thuộc về RNC.

Nhìn lại thì có vẻ như bộ xậu Trump đã bị RNC bắt chẹt. Tuy nhiên, vào thời điểm đó, bộ xậu của Trump hầu như không có bất kỳ cơ sở hạ tầng kỹ thuật số hay cơ sở dự liệu nào cả. Thực tế, vào khoảng thời gian đầu chiến dịch (tầm tháng 6/2016) có đến 60% email của đội ngũ Trump gửi đi bị chặn lại bởi bộ lọc thư rác. Điều này cho thấy việc hợp tác này là thiết thực & rất cần cho Trump.

Xây dựng Trung tâm dữ liệu – Project Alamo

Dưới sự lãnh đạo của Jared Kushner – một cố vấn cấp cao của chiến dịch và con rể của Trump – Parscale bắt đầu xây dựng dữ liệu cử tri (user data) ủng hộ Trump một cách âm thầm. Những cơ sở dữ liệu này thực sự là cú đột phá của Trump có tên là Project Alamo, nó chứa thông tin của 220 triệu người ở Hoa Kỳ, và khoảng 4.000 đến 5.000 dự liệu trực tuyến lẫn đời thực (nhân khẩu học, hành vi, quan tâm, sở thích …) của mỗi người; thực sự khổng lồ. Trung tâm dữ liệu này được tài trợ hoàn toàn bởi tiền của Trump nên nó là sở hữu riêng của Trump và vẫn tồn tại đến nay.

Project Alamo còn được cập nhật thêm các thông tin khác, kể cả những thông tin kiểu như hồ sơ đăng ký của cử tri, giấy phép sở hữu súng, lịch sử mua hàng thông qua thể tín dụng, và thông tin trên môi trường trực tuyến của mỗi người. Bộ xậu của Trump đã mua những thông tin này từ các bên cung cấp Third Party Data và là đối tác của Facebook như: Experian PLC, Datalogix, Epsilon, và Acxiom Inc.

Một trong những bên cung cấp dữ liệu quan trọng cho chiến dịch tranh cử của Trump và Project Alamo là Cambridge Analytica LLC., – một công ty chuyên về khoa học dữ liệu và họ khá nổi tiếng trong việc nghiên cứu hành vi tâm lý người dùng. Và theo như BussinessWeek mô tả thì “Phương thức của Cambridge Analytica là thống kê, phân tích và phân loại (segmentation) những người có khả năng ủng hộ Trump và chuyển tải quảng cáo trên Facebook liên tục đến từng người mà có thể hình dung giống như ném bom rải thảm, trong khi đó dữ liệu cử tri tiềm năng được cung cấp từ Gingrich & Tea Party sẽ được dùng để gửi email 

Mô hình của Cambridge Analytica cũng giúp ích trong việc lên lịch trình vận động tranh cử cho Trump, những nơi mà Trump tới diễn thuyết vận động tranh cử sẽ được các thuật toán của Cambridge Analytica tính toán và chọn lựa những nơi có lượng cử tri sẽ tham dự đông đảo và dễ thuyết phục nhất.

Việc này mang tính quyết định,  như Steve Bannon  – Chủ tịch Ủy ban vận động tranh cử của Trump và cũng là thành viên Hội đồng quản trị của Cambridge Analytica – đã nói: “Tôi sẽ không tham gia vào việc này (ý chỉ việc vận động tranh cử cho Trump), ngay cả đối với Trump, nếu tôi không biết họ đang tạo các chiến dịch quảng cáo Facebook và xây dựng những cơ sở dữ liệu khổng lồ như này. Facebook là cái đã mang đến cho Breitbart(**) đến một lượng khán giả lớn. Chúng tôi biết sức mạnh của nó

Dùng Dark Post của Facebook để tác động vào nhóm cử tri Người Mỹ gốc Phi & những người ủng hộ Clinton

Với sức mạnh được tạo ra bởi Project Alamo và các đối tác cung cấp dữ liệu như RNC và Cambridge Analytica, mỗi tháng Bộ phận phụ trách kỹ thuật số của Trump tiêu tốn khoảng 70 triệu đô-la Mỹ vào việc đưa quảng cáo tới những người ủng hộ hoặc có khả năng ủng hộ Trump, phần lớn là thông qua Facebook. Với nhóm đối tượng ủng hộ Trump thì Bộ phận phụ trách kỹ thuật số chủ yếu dùng quảng cáo Facebook để gây quỹ cho chiến dịch, và họ đã gây quỹ được tổng cộng 275 triệu đô-la Mỹ thông qua nhóm này trên Facebook, một con số đáng mơ ước.

Tuy nhiên, vào những tuần cuối cùng của chiến dịch thì ngày càng lượng người ủng hộ Trump càng giảm xuống, nên Bộ phận phụ trách kỹ thuật số của Parscale quyết định là dùng các quảng cáo Facebook để tác động vào nhóm người ủng hộ bà H. Clinton.

Và theo như BussinessWeek mô tả thì “Bộ xậu của Trump đã nghĩ ra một chiến lược khác, trong đó không có gì ngạc nhiên, đó là một chiến lược mang tính tiêu cực. Thay vì cố gắng tìm kiếm thêm cử tri ủng hộ Trump, Bannon và nhóm của ông quyết định để thu hẹp nhóm cử tri ủng hộ H. Clinton”.

Khi đó Bannon đã nói: “ Chúng tôi có ba chiến dịch nhằm làm giảm niềm tin của cử triCác chiến dịch làm giảm niềm tin này nhắm vào ba nhóm cử tri mà H. Clinton buộc phải có phiếu bầu từ họ với tỉ lệ áp đảo, đó là: Người da trắng theo chủ nghĩa lý tưởng, Phụ nữ trẻ và Người Mỹ gốc Phi ”

Ngày 24 tháng 10, bộ xậu của Trump bắt đầu đưa quảng cáo chính trị lên một số đài phát thanh của Mỹ gốc Phi. Ngoài ra, Bộ phận phụ trách kỹ thuật số của Trump đã tạo ra một đoạn phim hoạt hình có hình ảnh H. Clinton đang nói “Thú ham ăn” (nguyên văn là: super predator), thậm chí đoạn phim còn sử dụng cả âm thanh gốc được cắt ra khi bà nói câu này vào năm 1996, kèm theo đó là những phụ đề trong đoạn phim như: Hillary nghĩ Người Mỹ gốc Phi là thú ham ăn. Sau đó, đoạn phim hoạt hình này sẽ được chuyển tải tới những đối tượng được nhắm chọn là Người Mỹ gốc Phi thông qua Facebook bằng một cách thức gọi là “dark post”.

Mục tiêu là của các chiến dịch là nhằm làm giảm tối đa có thể số phiếu bầu phổ thông cho bà H. Clinton. “Chúng tôi biết nó sẽ hiệu quả bởi vì chúng tôi đã vận hành thử trên mô hình” – quan chức cấp cao của Trump nói thêm – “Nó sẽ ảnh hưởng đáng kể niềm tin của những cử tri thuộc nhóm này với các bài vận động tranh cử của bà ấy

Kỹ thuật số đã chiến thắng với chiến lược làm giảm niềm tin

Các chiến dịch kỹ thuật số của Trump đã tiêu tốn hàng triệu đô-la Mỹ cho khoa học dữ liệu để có thể hiểu được những người ủng hộ – những người mà có khả năng bỏ phiếu cho ông –  Trump cũng chấp nhận rủi ro để có được dữ liệu, tìm hiểu về những người ủng hộ Clinton. Cuối cùng, canh bạc mạo hiểm nhất là Trump dùng quảng cáo Facebook nhắm chọn chi tiết (micro targeted) đến những người Mỹ gốc Phi, phụ nữ trẻ … – những người ủng hộ bà Clinton và ông đã thành công.

Trong ngày bầu cử, lượng cử tri bầu cho đảng Dân chủ bất ngờ giảm sút ở các bang chiến trường, đặc biệt là các cử tri độc lập và lần đầu tiên đi bầu. Chiến lược gia Dân chủ David Plouffe cảm thán  “Tại Detroit, tổng số phiếu bà Clinton đạt được ít hơn ông Obama đạt được năm 2012 là 70.000 phiếu; bà cũng mất bang Michigan với khoảng cách chỉ 12.000 phiếu. Tại hạt Milwaukee ở bang Wisconsin, kết quả của Clinton cũng kém Obama đã đạt được là 40.000 phiếu, và bà mất luôn bang này với khoảng cách chỉ 27.000 phiếu. Trong khi tại hạt Cuyahoga bang Ohio, cử tri thuộc nhóm Mỹ gốc Phi bầu cho đảng Dân chủ đã giảm 11% so với 4 năm trước”.

Chiến thắng của Trump trong cuộc bầu cử là chiến thắng của chiến dịch vận động làm thay đổi suy nghĩ của cử tri thành công nhất trong lịch sử bầu cử nước Mỹ từ trước tới nay. Với vũ khí bí mật trong các chiến dịch kỹ thuật số là Project Alamo với cơ sở dữ liệu người dùng (user data) của 220 triệu cử tri Mỹ và nền tảng quảng cáo Facebook. Bằng cách tận dụng các công cụ quảng cáo rất tinh vi của Facebook, bao gồm công cụ Dark Post, công cụ Nhắm chọn mục tiêu (Audience Targeting) của Facebook và công cụ Nhắm chọn Đối từng Tùy chỉnh từ Danh sách có sẵn (Custom Audiences from Customer Lists) của Facebook, các chiến dịch quảng cáo trực tuyến của Trump đã âm thầm nhắm chọn những người ủng hộ bà Hillary Clinton và ngấm ngầm khuyến khích họ bỏ phiếu cho Trump.

Ghi chú của người dịch:

(*) Với 150 triệu đôla Mỹ và với tổng số phiếu bầu mà Trump đạt được là hơn 62 triệu phiếu thì đây rõ ràng xứng đáng là 1 casestudy về CPA kinh điến với chi phí rơi vào khoảng 2,4usd/ 1 phiếu.

(**) Breitbart: là đầu báo chuyên viết về chính trị có trụ sở tại NewYork, họ đã thu hút được lượng đọc giả rất lớn nhờ quảng cáo Facebook.

Nguồn: Medium

Dịch: Quốc Hưng

————&&&———-

Big Data đã giúp Trump chiến thắng trong cuộc Bầu cử Mỹ

Kỳ I: Big Data đã giúp Trump chiến thắng trong cuộc Bầu cử Mỹ

(Nguồn: http://vietnamnet.vn)

Tờ tạp chí “Das Magazin” của Thụy sĩ  xuất bản bằng tiếng Đức một cuộc điều tra về cách thức mà các nhà khoa học về dữ liệu (data scientist) kết hợp các công ty phân tích dữ liệu lớn (data analytics) sử dụng công nghệ quảng cáo tùy biến theo cá nhân trên Facebook gây ảnh hưởng đến cuộc bầu cử tổng thống Hoa Kỳ. Nhiều nhà báo trên thế giới đã gọi bài báo điều tra này là “text of the year” (bài viết của năm) về tác dụng của bigdata vào đời sống trong đó chúng ta có thể thấy các công nghệ mới nhất về dữ liệu lớn (Big Data), khoa học hành vi, và các phần mềm gián điệp đang len lỏi vàođời sống hàng ngày của mỗi người chúng ta. Phần lớn bài biết dưới đây rút ra từ bài báo: “Ich habe nur gezeigt, dass es die Bombe gibt” đăng ngày 3 tháng 12 năm 2016 trên Das Magazin.

Ngày 9 tháng 11 năm 2016, theo như Das Magazin thì một quả bom đã phát nổ: Donald Trump đã được bầu làm tổng thống Mỹ, bất chấp dự báo của các nhà xã hội học.

Cũng ngày hôm đó, một công ty nhỏ chưa ai nghe tên ở London đã gửi đi thông cáo báo chí: “chúng tôi lấy làm kinh ngạc vì phương pháp truyền thông dựa trên dữ liệu có tính cách mạng của mình đã góp phần đáng kế vào chiến thắng của Donald Trump”. Thông cáo được ký bởi một người tên là Alexander Nix, 41 tuổi, người Anh và lãnh đạo công ty Cambridge Analytica. Phương pháp cách mạng về truyền thông dựa trên dữ liệu (revolutionary approach to data-driven communications)  này sử dụng kết quả công trình nghiên cứu của một nhà khoa học 34 tuổi tên là Michal Kosinski, chuyên gia hàng đầu trong lĩnh vực psychometrics – ngành tâm lý học dựa trên phân tích dữ liệu.

Kỳ I: Big Data đã giúp Trump chiến thắng trong cuộc Bầu cử Mỹ

Từ dữ liệu (data) đến  phân tích dữ liệu (data analytics) và dữ liệu lớn (Big Data) thành những từ thời thượng (buzzword) nhưng Big Data nguy hiểm đến mức nào?

Dữ liệu lớn là một thuật ngữ dựa trên một khái niệm rằng tất cả những gì ta làm, trên mạng hay offline, đều để lại dấu vết số. Mua hàng bằng thẻ tín dụng, tìm đường trên Google, dạo chơi với điện thoại trong túi, dùng thiết bị đeo (wearable device) để theo dõi sức khỏe, mức độ tập luyện đến việc nhấn like trên mạng xã hội: tất cả đều được lưu lại dưới dạng những dữ liệu và dữ liệu này rất lớn, khổng lồ theo thời gian. Một thời gian dài không ai hình dung có thể sử dụng các dữ liệu ấy làm gì. Cũng không ai biết Big Data sẽ là gì đối với nhân loại, hiểm họa lớn hay thành tựu vĩ đại? Nhưng từ 9/11 chúng ta đã biết câu trả lời. Đằng sau chiến dịch tranh cử của Trump trên mạng, và đằng sau chiến dịch ủng hộ Brexit là cùng một công ty chuyên nghiên cứu Big Data: Cambridge Analytica (CA) dưới sự lãnh đạo của  giám đốc AlexanderNix. Tuy nhiên, dữ liệu chỉ là dữ liệu nếu nó không được phân tích và được mô hình hóa. Có rất nhiều mô hình để phân tích dữ liệu nhưng công ty CA đã sử dụng phương pháp đo nhân cách (psychometrics), đôi khi gọi là đồ hình nhân cách (psychography) do Michal Kosinski,nhà khoa học hàng đầu về dữ liệu và là phó giám đốc Trung tâm đo nhân cách (Psychometrics Centre) thuộc trường Đại học Cambridge.

Trong tâm lý học hiện đại, để đo nhân cách thì phổ biến nhất là dùng phương pháp OCEAN (từ chữ cái đầu của 5 chiều đo). Vào những năm 1980, các nhà tâm lý học đã chứng minh là mỗi người có thể được đo bằng 5 chiều. Đó là Big Five: độ mở đối với trải nghiệm (Openness), sự ý thức (Conscientiousness), sự hướng ngoại (Extraversion), sự dễ chịu (Agreeableness) và sự nhạy cảm (Neuroticism).  Trên cơ sở những số đo ấy có thể hiểu chính xác bạn là ai, bạn có mong muốn và nỗi sợ hãi nào, và bạn sẽ hành xử như thế nào. Trở ngại chính là việc thu thập dữ liệu vì để hiểu được một người, cần phải điền bảng hỏi khổng lồ và cần thu thập dữ liệu rất lớn. Sự phát triển của khoa học dữ liệu và dữ liệu lớn đã góp phần giải quyết thành công những trở ngại mà phương pháp OCEAN đặt ra.

Tại Trung tâm đo nhân cách, Kosinski và các cộng sự đã phát triển một ứng dụng trên facebook là MyPersonality trong đó người dùng trả lời các bảng các câu hỏi để biết nhân cách của mình và họ đã thu thập được dữ liệu của hàng triệu người dùng Facebook.

Kosinski và nhóm nghiên cứu các hành động của họ trên Facebook như like và re-post, và giới tính, độ tuổi và nơi ở. Qua đó nhóm thu được các mối tương quan (correlation). Từ kỹ thuật phân tích các dữ liệu trên mạng có thể cho ra những kết luận bất ngờ. Ví dụ, nếu một người đàn ông là fan của page mỹ phẩm MAC, thì khả năng lớn là đồng tính; Ngược lại, anh ta rất nam tính nếu là fan của ban nhạc hip hop Wu-Tang Clan ở New York. Fan của Lady Gaga khả năng lớn là người hướng ngoại, còn kẻ hay like các post mang tính triết lý thì hướng nội.

Kỳ I: Big Data đã giúp Trump chiến thắng trong cuộc Bầu cử Mỹ
Công ty Cambridge Analytica đã phát triển một giải pháp toàn diện cho phép biết tính cách của mỗi công dân Mỹ, những người có quyền bỏ phiếu.

Công trình nghiên cứu của Kosinski không chỉ cho phép lập chân dung tâm lý của người dùng, mà còn cho phép tìm kiếm những người có chân dung cần thiết. Ví dụ như có thể tìm những ông bố lo lắng, những kẻ hướng nội giận dữ, hay những người ngả theo đảng Dân chủ nhưng còn lưỡng lự bỏ phiếu. Về bản chất, đó là hệ thống tìm kiếm con người với những đặc tính cần tìm hiểu.

Vào năm 2014, một công ty quan tâm đến phương pháp của Kosinski đề nghị thực hiện một dự án  sử dụng psychometrics để phân tích 10 triệu người dùng Mỹ trên Facebook nhưng phân tích người dùng làm gì và tên công ty thì không nói viện cớ bảo mật thông tin. Lúc đầu Kosinski đồng ý nhưng rồi anh lại trì hoãn. Cuối cùng, tên công ty được tiết lộ là SCL (Strategic Communications Laboratories). Và trên website của công ty giới thiệu:  “chúng tôi là công ty toàn cầu chuyên về quản lý các chiến dịch tranh cử”. Công ty SCL này là công ty mẹ của công ty Cambridge Analytica, công ty thực hiện chiến dịch online cho Brexit và Trump.

Tháng 11 năm 2015 lãnh tụ phái cấp tiến ủng hộ Brexit Nigel Farage tuyên bố là website của của ông ta bắt đầu làm việc với một công ty chuyên về Big Data, chính là CA. Năng lực cốt lõi của công ty này là tiếp thị chính trị (political marketing) kiểu mới, còn được gọi là microtargeting, trên nền tảng phương pháp OCEAN.

Đào Trung Thành


Kỳ II: Big Data nguy hiểm tới mức nào?

(Nguồn: http://vietnamnet.vn)

Tháng 6 năm 2016, Trump đã thuê các chuyên gia Cambridge Analytica, nhiều người ở Washington cười cợt. Họ chắc chắn rằng Trump sẽ không bao giờ có thể hợp tác với các chuyên gia tư vấn nước ngoài của mình một cách hiệu quả. Tuy nhiên, họ đã sai.

Kỳ II: Big Data nguy hiểm tới mức nào?

Khác với Omama được xem là Tổng thống của mạng xã hội thì D. Trump vẫn được người ta cười nhạo về việc khả năng rất kém của ông trong việc sử dụng các công cụ công nghệ thông tin, mạng xã hội. Trợ lý của Trump tiết lộ, thậm chí ông còn không dùng email. Bản thân cô trợ lý này đã dạy ông dùng điện thoại, và từ đó ông dùng nó để đổ dòng suy nghĩ của mình lên Twitter.

Công ty Cambridge Analytica đã phát triển một giải pháp toàn diện cho phép biết tính cách của mỗi công dân Mỹ, những người có quyền bỏ phiếu. Giải pháp tiếp thị chính trị tuyệt vời của Cambridge Analytica dựa trên ba chiến thuật chính:

•    Phân tích hành vi (Behavioral analysis)  theo mô hình OCEAN.

•    Nghiên cứu cẩn thận Big Data.

•    Quảng cáo nhắm mục tiêu (Targeted advertising).

Quảng cáo nhắm mục tiêu có nghĩa là quảng cáo cá nhân hóa, được xây dựng theo tính cách của từng cá thể người dùng dựa trên nhân tính của họ xác định từ mô hình OCEAN.

Như vậy, bản thân Big Data chỉ là một nguồn thông tin lớn, một mỏ vàng cần được khai thác nhưng khái thác thế nào hiệu quả lại là một vấn đề khác. Cần có một mô hình phân tích hành vi tiên tiến. Và khi biết một người có tính cách gì và đang lưỡng lự trong việc bỏ phiếu thì cần phải dùng thông điệp thế nào cho phù hợp.

Kỳ II: Big Data nguy hiểm tới mức nào?

Bản chất đầy mâu thuẫn của Trump, tính phi nguyên tắc và hệ quả là số lượng lớn các loại thông điệp khác nhau bỗng trở nên hữu ích cho ông ta: mỗi cử tri nhận được một thông điệp riêng. “Trump hành xử như một thuật toán cơ hội lý tưởng, hoàn toàn chỉ dựa trên phản ứng của công chúng” – nhà toán học Cathy O’Neil nhận xét vào tháng tám. Vào ngày tranh luận thứ ba giữa Trump và Clinton, đội của Trump đã gửi vào mạng xã hội (chủ yếu là Facebook) hơn 175 nghìn thông điệp. Chúng chỉ khác nhau ở những chi tiết rất nhỏ, nhằm phù hợp nhất với tâm lý của người nhận cụ thể: tiêu đề, tiêu đề phụ, màu nền, ảnh và video. Cách làm tỉ mỉ như vậy khiến cho thông điệp nhận được sự đồng cảm của những nhóm cư dân nhỏ nhất, như Nix giải thích cho Das Magazine: “Bằng cách đó chúng tôi có thể vươn đến tận làng, khu phố hay ngôi nhà cần thiết, thậm chí là từng người”.

Chiến thắng của ứng cử viên Cộng hòa Donald Trump trước đối thủ đến từ Đảng Dân chủ Hillary Clinton được cho là một chiến thắng ít tốn kém và nhiều hiệu quả nhất. Theo hãng tin Reuters, Trump tiêu tốn dưới 5 USD cho mỗi lá phiếu bầu cho ông, thấp hơn nhiều so với chi phí của bà Clinton.

Theo số liệu mới nhất từ Ủy ban Bầu cử Liên bang, Trump đã huy động được tổng số 270 triệu USD kể từ khi bắt đầu chiến dịch tranh cử vào tháng 6/2015. Trong khi Hillary Clinton huy động được 521 triệu USD, gấp đôi khoản tiền mà Trump huy động được. Nhưng 237 triệu chi phí cho truyền hình, 53 triệu cho nhân viên và các tình nguyện viên hỗ trợ tranh cử, một khoản tiền lớn cho các báo, đài, các phương tiện truyền thống. Đó cũng là lý giải tại sao khi xem các phương tiện truyền thống như báo, đài thì có vẻ Hillary được đánh giá cao hơn Trump.

Một hãng Phân tích dữ liệu lớn khác là mediaQuant đánh giá các chương trình truyền thông thông tin cho cuộc bầu cử 2016 của Trump mang lại một giá trị định lượng tương đương 5 tỷ USD cho ông này, so với bà Clinton là 3.5 tỷ hay tỉ lệ 58% so với 42%. Thực tế ông Trump đã chiếm được 279 phiếu bầu đại cử tri so với 228 phiếu bầu của bà Hillary, tỷ lệ 52% so với 48%.

Khó có thể nói xã hội Mỹ bị tác động đến mức nào bởi các chuyên gia của Trump tại một thời điểm cụ thể, vì họ không sử dụng các kênh trung ương mà dùng mạng xã hội và truyền hình cáp.

Kỳ II: Big Data nguy hiểm tới mức nào?

Từ tháng 7/2016 các tình nguyện viên của Trump đã nhận được app cho phép biết được thiên kiến chính trị và loại nhân cách của cư dân nhà này hay nhà khác. Theo đó, những tình nguyện viên – tuyên truyền viên điều chỉnh hội thoại của mình với người dân. Phản hồi của người dân lại được họ ghi ngược vào app đó, và dữ liệu chuyển thẳng về trung tâm phân tích của CA.

Công ty xác định ra 32 loại tính cách tâm lý của dân Mỹ, tập trung ở 17 bang. Và như Kosinski đã phát hiện, rằng đàn ông thích mỹ phẩm MAC thì hầu như chắc chắn là đồng tính, CA chứng minh rằng những kẻ trung thành với ô tô Mỹ hẳn nhiên là ngả theo Trump. Hơn nữa, những phát kiến như vậy giúp bản thân Trump hiểu những thông điệp nào dùng ở đâu thì tốt nhất. Quyết định của đại bản doanh về việc tập trung vào Michigan và Wisconsin vào những tuần cuối cùng là dựa trên phân tích dữ liệu.

Ngoài chiếm thắng Nigel Farage ở Brexit và của Trump trong cuộc Bầu cử Mỹ  2016 thì người chiến thắng là công ty CA với khoản thù lao 15 triệu USD nhận được từ chiến dịch của Trump. Marion Maréchal-Le Pen, một nhân vật cấp tiến đồng thời là cháu của thủ lĩnh đảng “Mặt trận dân tộc” Pháp cũng đã mừng vui loan báo về quan hệ hợp tác với hãng. Theo Nix, công ty đang được rất nhiều khách hàng trên thế giới quan tâm, có cả từ Thụy sỹ và Đức.

Nhu cầu phân tích và khai thác những nguồn dữ liệu lớn và phức tạp trong các hoạt động của con người và các tổ chức trong những năm gần đây đang trở nên cấp bách. Sở dĩ vậy vì ta đang có nhiều dữ liệu quanh mình hơn bao giờ hết và nếu dùng được chúng sẽ đưa ra được các quyết định đúng đắn hơn, những hiểu biết chính xác, những khám phá quan trọng. Khoa học phân tích dữ liệu (data science or data analytics) gần đây trở thành một lĩnh vực sôi động của công nghệ thông tin, có ảnh hưởng sâu sắc tới mọi lĩnh vực hoạt động của con người, đặc biệt trong kinh doanh.

Theo nghiên cứu của các nhà kinh tế, đến năm 2018, Mỹ sẽ cần 140.000 đến 190.000 người có kỹ năng phân tích chuyên sâu cũng như 1,5 triệu nhà quản lý và phân tích trong lĩnh vực “dữ liệu lớn” (Big Data).Nắm chắc và biết sử dụng khoa học phân tích dữ liệu chính là chìa khoá của công việc và thành công trong những thập kỷ tới đây, như ý kiến nêu trong Harvard Business Review:  “Khoa học dữ liệu là công việc hấp dẫn nhất trong thế kỷ 21” (“Data scientist: the sexiest job of the 21st century”).

Đào Trung Thành

————–&&&————–

Dữ liệu lớn và dữ liệu cá nhân: hướng tới việc quản trị có tính đạo đức các thuật toán

Dữ liệu lớn và dữ liệu cá nhân: hướng tới việc quản trị có tính đạo đức các thuật toán

(Tác giả: Jerome Beranger – Nguồn: http://www.phantichkinhte123.com)

Gần như khó có thể tưởng tượng được cuộc sống đương đại nếu không bàn đến việc chúng ta sử dụng hàng ngày các hệ thống thông tin được triển khai trên các máy tính, điện thoại thông minh, máy tính bảng, GPS, và từ nay còn thêm các thiết bị kết nối khác. Chúng ta đắm mình trong một thực tế kỹ thuật số được kiểm soát và cá nhân hóa, hội tụ vô số các dòng chảy thông tin. Việc khai thác các dữ liệu này trở thành một chủ đề nhạy cảm, bởi vì chúng ảnh hưởng trực tiếp đến sự riêng tư của chúng ta. Tất nhiên mỗi người đều có những công cụ cho phép điều chỉnh một số các thông số – ví dụ, chấp nhận hay không việc định vị địa lý. Nhưng sự kiểm soát cá nhân này chỉ mang tính cục bộ và hầu như chưa ai có khả năng thực hiện nó một cách nghiêm túc. Vì vậy câu hỏi được đặt ra ở một cấp độ kiểm soát khác, ở cấp độ quản lý Dữ liệu lớn. Bằng cách nào? Bên cạnh những giải pháp thể chế được xây dựng dựa trên các cơ quan kiểm soát, còn nổi lên một hướng là khai phá dữ liệu có đạo đức (ethical data mining).

Với sự phát triển của các công nghệ về Dữ liệu lớn, các thuật toán khai thác các dòng chảy dữ liệu đóng một vai trò ngày càng mang tính quyết định đối với sự lựa chọn của cá nhân. Có lẽ quá đáng khi nói rằng các thuật toán ấy kiểm soát chúng ta, nhưng chúng định hướng chúng ta trong rất nhiều quyết định, từ việc lựa chọn một khách sạn hay một vé máy bay đến việc lựa chọn một lộ trình, một cuốn sách trên Internet, hay việc gặp gỡ bạn bè mới trên các mạng xã hội.

Khi tạo điều kiện dễ dàng để chúng ta lựa chọn, khi tạo các thói quen lựa chọn của chúng ta, các thuật toán ấy tham gia vào cách thức tổ chức đời sống xã hội. Vì vậy, chúng ta đang chứng kiến sự nổi lên kín đáo của một “quyền lực” thuật toán được chủ yếu tiếp liệu bởi các dữ liệu thô. Năng lực của quyền lực này trong việc can thiệp vào đời sống riêng tư nhất của chúng ta là điều hoàn toàn mới: ngay cả các chế độ toàn trị, cùng với đội quân gián điệp và chỉ điểm của các chế độ ấy, cũng không dám mơ ước điều này. Việc khai thác trên quy mô lớn và diện rộng các dữ liệu này cho phép tạo ra các thông tin được cá nhân hóa, dựa trên một sự tiên đoán về điều khả thi và nhắm đến việc “tạo điều kiện” cho chúng ta ra quyết định, và cách làm này có những điểm không rõ ràng. Những tổ chức mà chúng có tiếp xúc dưới dạng số đều quan tâm đến những lựa chọn của chúng ta, tìm cách tiên đoán chúng, định hướng chúng. Chúng ta hầu như không có khả năng kiểm soát, và thậm chí hầu như không có cách để hiểu được những tiêu chí được các thuật toán vận dụng để tìm hiểu và tác động đến bản thân chúng ta.

Làm thế nào để nắm lại khả năng kiểm soát? Một trong những hướng thú vị nhất là thông qua việc xây dựng và thiết lập một mô hình hóa phù hợp để phân tích, tìm hiểu và xử lý những khối lượng lớn các dữ liệu phức tạp ấy. Có thể gọi đó là một mô hình hóa “đạo đức“.

Mô hình hóa đạo đức các dữ liệu phức tạp

Chúng ta hãy thống nhất một điều. Vấn đề không phải là kìm hãm sự phát triển của Dữ liệu lớn, càng không phải là quay lùi lại, mà là làm sao cho đời sống chúng ta không bị điều khiển bởi một sự duy lý mù quáng hay chỉ phục tùng những mệnh lệnh duy nhất nào đó của sự tiếp thị. Ngược lại, thách thức là xây dựng một mô hình hóa tương thích vừa với yêu cầu về ý nghĩa và vừa với tiềm năng to lớn của Dữ liệu lớn.

Vì vậy, chúng ta hoàn toàn có thể hình dung một mô hình hóa có tính đạo đức các dữ liệu phức tạp, vì một lý do thuộc về chính ngay chức năng vận hành của việc khai phá dữ liệu. Bởi vì các thuật toán quy nạp nằm ở trung tâm của Dữ liệu lớn được thúc đẩy bởi một lôgic gần gũi một cách lạ lùng với “minh triết thực tiễn” vốn ở trung tâm của đạo đức học.

Trong đời sống hàng ngày, con người cảm nhận dữ liệu, diễn giải thông tin, kết nối với các kiến thức khác đã được ghi nhớ trước đây và như vậy có được những năng lực cần thiết để vận dụng sau này theo cách lặp đi lặp lại. Như vậy, con người có được một “minh triết thực tiễn“, có thể hình thức hóa và tinh chỉnh hóa theo một “minh triết“, có nghĩa là một nghệ thuật ứng xử.

Các thuật toán khai phá dữ liệu được thúc đẩy bởi một lôgic rất gần với lôgic được con người vận dụng trong hành vi ứng xử hàng ngày của họ: một lôgic không mang tính diễn dịch, mà mang tính quy nạp. Các thuật toán của dữ liệu lớn không được thiết kế để đưa ra những chứng minh, để tạo ra những kết quả không thể chối cãi, được chứng minh bằng a + b. Chúng vận dụng những dữ liệu cục bộ, không đầy đủ, ít có cấu trúc, những dữ liệu không cho phép kiểu suy luận nói trên. Chức năng của chúng đúng hơn là nhận ra những sự lặp đi lặp lại, nhận diện các sơ đồ, các mô hình ứng xử: chẳng hạn như, trên Amazon, chúng nhận ra một đọc giả của một cuốn sách nào đó có nhiều khả năng sẽ quan tâm đến một cuốn sách khác. Chúng thu thập dữ liệu, tổng gộp chúng thành thông tin, diễn giải những thông tin ấy, kết nối với các kiến thức khác đã được ghi nhớ trước và từ đó đưa ra những lựa chọn có giới hạn, hướng tới một mục đích thực tiễn. Tính mục đích này nằm ở ngã ba đường giữa lợi ích của chúng ta và lợi ích của tổ chức sở hữu các hệ thống thông tin, theo nhiều cấu hình khác nhau, từ một tính gần như trung lập đến một định hướng bắt buộc theo một một sản phẩm nào đó, theo một lộ trình nào đó, theo một lựa chọn nào đó.

Thời điểm then chốt, đối với con người cũng như đối với các thuật toán, là vấn đề đơn giản hóa, có nghĩa là việc chuyển đổi một tập hợp phức tạp các dữ liệu thô thành một thông tin thực tế. Đặc biệt là sự đơn giản hóa này, trong trường hợp của các công nghệ thông tin, nhắm đến việc ưu tiên cho một entropi rất thấp, có nghĩa là một mức độ hỗn độn gần như bằng không. Để lấy lại ví dụ của Amazon, điều này có nghĩa là không nên đề nghị cho một người thích khoa học viễn tưởng một cuốn sách về dân tộc học. Chính vào thời điểm then chốt của sự đơn giản hóa này mà việc mô hình hóa đạo đức các dữ liệu phức tạp cần phải nỗ lực đi cùng và nuôi dưỡng ý nghĩa.

Có hai nguyên tắc bắt buộc.

Thứ nhất, “thông tin” mà chúng ta đang nói phải nằm trong một khuôn khổ hệ thống kết nối nó với hành động thông qua kiến thức. Thông tin được tổng gộp thành kiến thức, nhưng kiến thức này là một kiến thức thực tế, được đúc kết trong hành động. Nó không phải là một kiếnthức hiểu biết mà là một kiến thức biết để sử dụng.

Nguyên tắc thứ hai bắt nguồn trực tiếp từ lý thuyết thông tin. Chúng ta có thể trình bày nó như thế này: thay vì mô tả quá trình, chúng ta chuộng mô tả trạng thái hơn. Thách thức của đạo đức, cũng như thách thức của các Dữ liệu lớn, là bước chuyển từ một trạng thái các hiểu biết phức tạp, vô tổ chức và không rõ ràng sang một trạng thái các hiểu biết đơn giản, có cấu trúc và hướng tới một đích.

Một vấn đề then chốt: thứ bậc hóa dữ liệu

Một giai đoạn mang tính quyết định của việc đơn giản hóa dữ liệu là việc thứ bậc hóa dữ liệu. Chính sự thứ bậc hóa mới cho phép “điều chỉnh” các thuật toán, làm cho chúng tạo ra một kết quả có thể dùng được. Sự thứ bậc hóa này trước tiên đòi hỏi chúng ta phải suy nghĩ về giá trị của dữ liệu, mở ra cả một loạt các câu hỏi: Vì sao phải đánh giá dữ liệu, với mục đích gì và theo những mục tiêu gì? Chúng ta ước tính giá trị của một dữ liệu và một thông tin theo những tiêu chí nào? Và, đặc biệt, chúng ta phải đánh giá những gì?

Giá trị của một dữ liệu có thể được đánh giá dưới góc độ của nội dung: ví dụ, một nhấp chuột có nghĩa là bạn thích, là bạn tiến lên theo một hướng nào đó hay là bạn quay trở lại, hay là bạn hoàn tất một giao dịch thanh toán. Giá trị của dữ liệu cũng có thể được ước tính dưới góc độ của tính rườm rà, tính đa dạng và số lượng. Nó cũng phụ thuộc vào kiến thức tổng hợp: một số dữ liệu tạo ra ít kiến thức, một số dữ liệu khác thì có ý nghĩa nhiều hơn. Cuối cùng, chúng ta có thể đánh giá giá trị của dữ liệu theo mức độ chia sẻ, theo chất lượng và số lượng trao đổi.

Nhưng giá trị của dữ liệu cũng chuyển biến theo dịch vụ cung cấp cho người sử dụng. Đánh giá một thông tin, do đó cũng là xác định chiến lược truyền tải: truy cập vào những thông tin đúng vào đúng thời điểm, chọn lọc việc truyền tải thông tin theo các mối quan tâm và theo nhu cầu của người sử dụng, để đấu tranh chống lại thông tin sai lạc và dư thừa thông tin.

Do đó, điều cần thiết là xác định những dữ liệu nào và lượng thông tin nào cần thiết để nhà thiết kế một hệ thống sẽ cung cấp cho người sử dụng. Những dữ liệu nào là cần thiết cho người sử dụng để quyết định “đúng” hay để hành động “đúng“? Để đạt được một sự cân bằng thực tế trong các hệ thống thông tin giữa sự cải thiện và sự quá tải các dữ liệu được truyền, có hai biến có thể giúp tối ưu hóa chức năng thứ bậc hóa và lựa chọn.

Biến đầu tiên, là việc đánh giá lại sự phân bổ dữ liệu trên nhiều mức độ khác nhau của hệ thống. Nếu việc đánh giá lại này mang tính tuần hoàn, thì sự quá tải kết hợp với sự di chuyển dữ liệu theo hướng này và hướng khác có nguy cơ làm mất các kết quả thu được nhờ vào sự di chuyển của dữ liệu trên các đĩa lưu trữ.

Biến thứ hai, là số lượng các dữ liệu cần đưa vào trong đơn vị lưu trữ tối thiểu, kế đến là quản lý và di chuyển trong hệ thống thông tin. Một lần nữa, một lượng dữ liệu quá lớn sẽ làm phức tạp và làm chậm chức năng thứ bậc hóa và lựa chọn của hệ thống.

Công việc thứ bậc hóa và đánh giá dữ liệu này là điều rất quan trọng. Bởi vì, chính tại nơi đây mà một chiều kích đạo đức có thể được đưa vào. Hãy xem xét một trường hợp thực tế, đặc biệt nhạy cảm: các dữ liệu y tế.

Một ví dụ về phân tích đạo đức: dữ liệu y tế

Tom Beauchamp (1939-)
James Childress (1940-)

Dữ liệu y tế tồn tại ở ranh giới của hai thế giới: sự riêng tư của bệnh nhân cần được bảo vệ, và dữ liệu thống kê về dịch tễ học, có một mức độ hữu dụng nhất định đối với toàn thể dân chúng (mà còn đối với các thầy thuốc, bảo hiểm xã hội, ngành công nghiệp dược phẩm, các công ty bảo hiểm, các nhà thuốc, các bệnh viện …). Làm thế nào để nối khớp hai chiều kích này?

Một cách tiếp cận về đạo đức có thể dựa vào bốn nguyên tắc được Tom Beauchamp và James Childress xác định trong công trình tham chiếu về vấn đề này, Principles of Biomedical Ethics – Các nguyên tắc của đạo đức y sinh (2001).

Ÿ

Nguyên tắc thứ nhất là làm điều đúng, được định nghĩa như là một đóng góp cho phúc lợi của người khác. Hành động “làm điều đúng” phải đáp ứng hai quy tắc rõ ràng: nó phải mang tính có lợi, và nó phải mang tính có ích, có nghĩa là có một quan hệ tích cực về chi phí và lợi ích.

Ÿ Nguyên tắc thứ hai, quyền tự chủ: việc một người tự đề ra cho bản thân một quy tắc ứng xử. Nguyên tắc này nhắm đến sự tham gia của bệnh nhân vào quá trình ra quyết định.

Ÿ Nguyên tắc thứ ba, “không làm điều xấu“: tránh làm điều xấu đối với người mà chúng ta có trách nhiệm, tránh làm những điều tổn hại hay đau khổ, không có ý nghĩa gì đối với người ấy.

Ÿ Cuối cùng, nguyên tắc thứ tư, công lý, có thiên hướng chia sẻ các nguồn lực có sẵn cho tất cả các bệnh nhân (thời gian, tiền bạc, năng lượng). Nguyên tắc này gắn chặt với các khái niệm về bình đẳng và công bằng, có tác động trong quá trình đưa ra một quyết định về công lý. Lý tưởng nhất thì mọi hành động cần phải nhắm đến một sự bình đẳng hoàn hảo, nhưng tùy theo hoàn cảnh và con người, thường thì sự công bằng sẽ thắng thế để thiết lập các vấn đề ưu tiên và một hệ thống thứ bậc nào đó trong hành động.

Dựa vào các dữ liệu y tế, ta có thể đưa ra một lựa chọn đúng đáp ứng ba trong bốn nguyên tắc đạo đức sau:

Ÿ Nguyên tắc của hành động đúng, khi sự truyền tải kiến thức một cách thích đáng đến người sử dụng (các chuyên gia y tế và các công dân) đảm bảo tính có căn cứ và tính chính đáng của hành động. Việc truyền thông sẽ trở nên hiệu quả hơn.

Ÿ Nguyên tắc tự chủ, khi một thông tin rõ ràng, chính xác, phù hợp và dễ hiểu, thì nó đảm bảo sự ưng thuận sáng suốt của con người. Bệnh nhân luôn có khả năng cân nhắc, đưa ra quyết định và hành động.

Ÿ Cuối cùng, nguyên tắc của hành động không làm điều xấu, khi quyền truy cập có giới hạn vào dữ liệu tùy theo nhân thân và cương vị của người sử dụng, sẽ cải thiện tính an toàn, bảo mật và bảo vệ dữ liệu.

Tuy nhiên, thiết kế chọn lọc dữ liệu này có một tác động ngược với nguyên tắc về công lý, thông tin được chuyển giao không hoàn toàn giống nhau và còn tùy theo người sử dụng hệ thống thông tin là ai. Hệ thống áp đặt những quy tắc phân bổ và truy cập thông tin khác nhau tùy theo cương vị của người sử dụng. Sự bất đối xứng về kiến thức mang tính phân biệt đối xử và làm đặt lại vấn đề về tính minh bạch của thông tin.

Theo cách tiếp cận này, việc phân loại và lựa chọn dữ liệu được thực hiện theo tầm quan trọng mà người ta gắn cho chúng và theo những câu hỏi được đặt ra về việc sử dụng và truyền tải dữ liệu. Việc đơn giản hóa sự truyền tải dữ liệu dẫn đến một cách sử dụng và truy cập hiệu quả hơn, với việc nắm bắt dữ liệu tốt hơn và bảo mật dữ liệu nhiều hơn. Ngược lại, nó dẫn đến một tính toàn vẹn dữ liệu ít hơn. Từ vấn đề này, việc thứ bậc hóa dữ liệu sẽ đơn giản hóa công việc của nhiều người sử dụng khác nhau, nhưng lại khiến cho nhà thiết kế hệ thống thông tin phải đối mặt với một mức độ phức tạp kỹ thuật lớn hơn.

Việc thứ bậc hóa có chọn lọc các dữ liệu này đóng một vai trò to lớn trong mức độ phức tạp của dữ liệu và khả năng tiếp cận dữ liệu của người sử dụng. Chúng ta có thể đồng nhất nó với một “trí tuệ về tổ chức“. Các thuật toán được thiết kế theo các nguyên tắc của việc khai phá dữ liệu có đạo đức làm sản sinh ra những thông tin mới, mà người ta có thể gọi là “thông tin đạo đức“. Thông tin tiền xử lý này, theo một lưới đánh giá đạo đức, sẽ chứa nhiều giá trị hơn cho hoạt động khai thác dữ liệu trong tương lai.

Khi đạo đức cải thiện chất lượng của dữ liệu

Thiết kế thứ bậc hóa này và sau đó chọn lọc các dữ liệu ban đầu sẽ dẫn đến một sự cải thiện giá trị về chất lượng và entropi của kiến thức, bất chấp việc mất đi về mặt số lượng của dữ liệu và thông tin. Do đó, một hệ thống thứ bậc hóa và chọn lọc tự động các dữ liệu sẽ cho phép một hệ thống lưu trữ di trú các dữ liệu một cách tự động sang một lớp những dịch vụ đúng với nhu cầu của từng người sử dụng.

Cách tiếp cận này khớp hoàn toàn với các công trình về những thuật toán quy nạp, nằm ở trung tâm của các công nghệ về Dữ liệu lớn. Đối với một vấn đề nhất định, không tồn tại một giải pháp quy nạp duy nhất và phổ quát. Tuy nhiên, điều phổ biến là có một số nhỏ các phương pháp xử lý đáp ứng một mục đích cụ thể. Cũng như một quá trình đạo đức, các thuật toán quy nạp hiệu quả nhất đều mang tính tiến hóa. Chúng được cải tiến bằng cách điều chỉnh cách thức xử lý dữ liệu theo cách sử dụng thích đáng nhất có thể có được. Để xây dựng các thuật toán này, điều cần thiết là việc xử lý dữ liệu phải mang tính tiên đoán và đóng góp. Để làm được điều này, việc khai thác Dữ liệu lớn phải chuyển đổi càng sớm càng tốt các dữ liệu ấy thành thông tin đạo đức có thể khai thác được vào các lần sau.

Trong bối cảnh này, việc nghiên cứu giải pháp thứ bậc hóa và lựa chọn qua một lăng kính đạo đức sẽ cho phép hiểu rõ hơn về sự cân bằng không ổn định giữa tính sẵn có, tính bảo mật và việc bảo vệ dữ liệu. Sự cân bằng này có thể nghiêng về bên này hay bên kia tùy thuộc vào bối cảnh cụ thể. Một cách tiếp cận như vậy sẽ dẫn chúng ta đến việc đặt ra một loạt các câu hỏi trước khi tiến hành việc lựa chọn dữ liệu: những mục tiêu, mục đích, thách thức và ý nghĩa của giai đoạn này là gì? Tôi sẽ sử dụng những dữ liệu nào? Một phần hay toàn bộ dữ liệu? Tôi sẽ sử dụng chúng như thế nào? Ở đâu? Với những người sử dụng nào? Nói tổng quát hơn, làm thế nào để khai thác tập hợp không đồng nhất các dữ liệu được tích lũy và lưu trữ trong một hệ thống thông tin? Tính thích đáng của thông tin so với tình huống của tôi là gì? Liệu điều đó có làm sai lệch bản chất giá trị thông tin ban đầu không? Tính toàn vẹn của thông điệp cuối cùng có được bảo toàn không?

Jerome Beranger

Công nghệ không thể trả lời hết các câu hỏi nói trên. Chúng ta cũng cần phải viện đến quy chế đạo đức hành nghề và hành vi của con người để đảm bảo sự riêng tư và việc bảo vệ các dữ liệu cá nhân. Có thể đạt được điều này bằng một bản điều lệ về đạo đức liên quan đến quan điểm thiết kế, việc thiết lập và sử dụng các dữ liệu cá nhân được hợp nhất trong các Dữ liệu lớn này. Lúc bấy giờ sẽ đặt ra vấn đề về cơ chế hay định chế sẽ chịu trách nhiệm chuẩn bị bản điều lệ này, và các quá trình gắn nhãn hiệu cho các thuật toán “đạo đức“.

Jerome Beranger, Cố vấn cao cấp, Keosys, nhà nghiên cứu hợp tác với tổ chức Espace éthique méditerranéen.

Huỳnh Thiện Quốc Việt dịch

Nguồn: Big Data et données personnelles: vers une gouvernance éthique des algorithmes,ParisTech Review, December 22nd, 2014

————–&&————–

Google và sự thống trị của dòng chảy số liệu trong xã hội

Google và sự thống trị của dòng chảy số liệu trong xã hội

(Nguồn: cafef.vn)

Có lẽ, trong một tương lai không xa, con người sẽ quyết định sinh con, kết hôn hay tất cả những quyết định trọng đại khác dựa trên thuật toán và con số thay vì cảm xúc và hiểu biết của bản thân.

Hàng nghìn năm trước, loài người đã từng tin vào quyền năng của các vị thần và mỗi lựa chọn của con người là ý chí của một vị chúa trời nào đó. Đến thời kỳ hiện đại, các nhà khoa học và nhân quyền bắt đầu đã có những cuộc cách mạng khiến con người tin vào bản thân cũng như tự ra quyết định cho mình.

Theo đó, con người làm những gì họ thấy đúng hoặc thấy cần thiết và việc tuân theo cảm xúc, ý chí cá nhân là quyền tự do thiêng liêng của nhân loại.

Tuy nhiên, trước sự phát triển mạnh mẽ của công nghệ và các thuật toán, con người giờ đây bị chi phối và ảnh hưởng bởi số liệu, khảo sát hoặc những khuyến nghị từ chính những thuật toán do loài người tạo ra.

Loài người hiện đã sáng tạo ra những công nghệ phi thường, nhưng chính những kỹ thuật này khiến con người phụ thuộc vào nó mà không nhận ra. Mỗi ngày, mọi người đều bận rộn nhận vô số thông tin dữ liệu qua email, gọi điện thoại, đọc các bản báo cáo, xử lý số liệu và chuyển chúng qua các email, cuộc gọi.

Cứ như vậy, con người giờ đây trở thành một phần trong dòng chảy số liệu thay vì tạm ngừng lại một phút để tự hỏi họ thực sự muốn thứ gì.

Đã bao giờ các bạn tự ngồi xuống và xem công việc mình đang làm đóng góp thế nào cho thế giới? Các bạn đã bao giờ tự dừng lại một phút và tự hỏi mình có thực sự thích công việc này, chúng có phù hợp với mình hay không?

Hầu như tất cả mọi người chẳng mấy khi để ý, bởi họ còn đang bận làm việc, trả lời email, điện thoại và trên hết là kiếm tiền.

Cũng như trong lý thuyết về kinh tế với quan điểm bàn tay vô hình, sức mạnh của thị trường tự do chi phối mọi hoạt động kinh doanh, lý thuyết về tự do cá nhân ngày nay cũng nảy sinh quan điểm về bàn tay vô hình của dòng chảy số liệu.

Theo đó, việc kết nối các số liệu đang ngày càng trở nên quyền lực hơn và chúng buộc con người phải trôi theo. Sếp của bạn cần email báo cáo và bạn phải làm dù chẳng muốn. Đối tác của bạn muốn bạn gọi lại vào tối muộn dù bạn đã làm việc mệt nhoài…

Thậm chí, cuộc sống giờ đây gắn liền với số liệu, với mạng xã hội, với đủ thứ công nghệ. Nếu bạn trải nghiệm một thứ gì đó, bạn thường lưu nó lại, tải chúng lên mạng, chia sẻ chúng với mọi người. Hàng loạt những ứng dụng cho phép bạn quay video, upload ảnh hay chia sẻ những gì mình muốn với mọi người xung quanh ra đời và được sử dụng rộng rãi.

Máy móc giờ đây hiểu con người hơn bản thân họ

Quan điểm nghe theo trái tim của bản thân, sống theo phong cách đích thực của mình, tin tưởng vào những gì mà bản thân cảm thấy ngày nay đã không còn. Thay vào đó, mọi người tin vào số liệu, khảo sát, nghiên cứu, trào lưu trên mạng xã hội.

Thậm chí các nhà khoa học ngày nay cũng đã phát triển quan điểm cảm xúc của con người chỉ là do những hóc môn kích thích não bộ và hành vi của mọi người có thể dự đoán, tính toán được thông qua những phản ứng và điều kiện nhất định.

Theo đó, giả sử khi một người gặp nguy hiểm, não bộ dựa trên tình hình cụ thể và tính toán ra được khả năng tử vong là cao, qua đó tiết ra những hóc môn khiến con người có cảm xúc sợ hãi.

Như vậy, tính cách, cảm xúc hay suy nghĩ của một người hoàn toàn có thể sự đoán được nếu biết cách. Đây có lẽ là lý do khiến những trang mạng cá nhân như Facebook hay các kết quả lướt web của chúng ta trên Google lại đáng giá đến vậy.

Suy cho cùng, dữ liệu khách hàng của các công ty công nghệ này là cơ sở để hàng loạt những doanh nghiệp, chính phủ, tổ chức dự đoán hành vi, cảm xúc của khách hàng, cử tri hay đối tượng mà họ quan tâm.

Con người có thể quên những ứng dụng mà họ mua, những trang web mà họ đăng nhập hay những nút “thích” họ bấm trên Facebook, nhưng hệ thống máy tính thì không. Chúng lưu lại mọi hành động của người dùng và dự đoán hành vi cũng như mối quan tâm của họ.

Kể từ đây, cảm xúc và suy nghĩ của con người bị mặc định. Người tiêu dùng ngày nay khó chịu với những quảng cáo, những khuyến nghị mua hàng dựa trên kết quả tìm kiếm hay số liệu cung cấp từ Google và Facebook.

Tuy nhiên, không phải mọi người tiêu dùng đều khó chịu với những khuyến nghị này. Một ví dụ nổi tiếng là việc nữ diễn viên Angelina Jolie phẫu thuật ngực nhằm tránh rủi ro bị ung thư vú. Năm 2013, một cuộc thử nghiệm về gen cho thấy khả năng bị ung thư vú của Jolie là 87% và mặc dù không hề có biểu hiện nào của ung thư, nhưng Jolie vẫn quyết định phẫu thuật cắt bỏ nhằm phòng tránh nguy cơ.

“Bạn có thể không cảm thấy gì khác lạ nhưng nhiều rủi ro vẫn đang tiềm ẩn trong chính gen của bạn. Vì vậy, hãy làm gì đó ngay bây giờ”, cô Jolie nói.

Rõ ràng, thời kỳ khi người bênh cảm thấy không khỏe và đến bác sỹ để khám đã qua. Con người giờ đây tin vào số liệu và máy móc hơn chính bản thân họ.

Kết hôn theo Google

Có một mẩu chuyện khá thú vị về ảnh hưởng của công nghệ và số liệu ngày nay đối với đời sống xã hội con người.

Một cô gái đang có 2 người theo đuổi là John và Paul. Cô gái đó thích cả hai theo cách khác nhau nhưng phân vân không thể chọn lựa. Cuối cùng cô hỏi Google để cho lời khuyên và đây là câu trả lời:

“Chúng tôi đã dõi theo cô từ khi mới lọt lòng từ những bức ảnh cha mẹ cô đăng lên mạng hay các hồ sơ y tế. Chúng tôi cũng đã đọc toàn bộ các email, lưu lại những cuộc gọi, rà soát tất cả các bộ phim cô thích cũng như tra xét được mã ADN của cô.

Chúng tôi cũng có số liệu chính xác về mỗi cuộc hẹn hay mối tính mà cô trải qua. Đặc biệt, chúng tôi ghi lại được chính xác nhịp tim, huyết áp và lượng đường trong máu mỗi khi cô hẹn John hay Paul.

Dựa trên những số liệu này cùng những khảo sát về hàng triệu mối quan hệ trong nhiều thập niên qua, chúng tôi khuyến nghị cô yêu John với 87% khả năng 2 người sẽ gắn bó dài lâu trong tương lai.

Chúng tôi cũng biết là bạn không thích kết quả này bởi Paul đẹp trai hơn John và bạn khá coi trọng vẻ bề ngoài. Thậm chí chúng tôi biết trong thâm tâm bạn muốn chọn Paul. Tuy nhiên, số liệu cho thấy di truyền gen của bạn và số liệu sinh hóa của bạn có nguồn gốc từ Châu Phi. Tại thời điểm đó, những người Châu Phi chỉ đặt 35% tỷ lệ cho vẻ bề ngoài khi tìm bạn tình.

Các khảo sát của chúng tôi cũng cho tháy vẻ bề ngoài chỉ chiếm 14% thành công trong các cuộc yêu đương dài hạn. Vì vậy dù chúng tôi đã tính toán vẻ đẹp trai của Paul nhưng chúng tôi vẫn khuyến nghị bạn hẹn hò với John”.

Tất nhiên, Google hay những công ty công nghệ không phải vạn năng và cũng có thể sai. Tuy nhiên, do có kho dữ liệu khổng lồ nên nhiều người mặc định câu trả lời của Google đáng để xem xét thay vì dựa trên cảm xúc thực của bản thân. Kết quả là đôi khi con người mắc những sai lầm tệ hại khi nghe theo số liệu hay những trào lưu, khuyến nghị trên mạng.

Mặc dù vậy, số liệu và những ứng dụng ngày nay vẫn ảnh hưởng khá nhiều đến quyết định của con người bởi nhiều người vẫn không biết rõ bản thân. Họ không biết mình thực sự muốn gì và kiến thức hay sự hiểu biết của họ là có hạn. Điều này khiến đa số mọi người quyết định làm theo lời khuyên của công nghệ, ứng dụng, kho số liệu hay những khuyến nghị của cộng đồng mạng.

Có lẽ, trong một tương lai không xa, con người sẽ quyết định sinh con, kết hôn hay tất cả những quyết định trọng đại khác dựa trên thuật toán và con số thay vì cảm xúc và hiểu biết của bản thân. Nguyên nhân rất dễ hiểu, con số thì hoàn toàn rõ ràng và nếu sai lầm thì do thuật toán chưa chính xác, trong khi cảm xúc rất khó đoán và không nhiều người dám dũng cảm chấp nhận hậu quả do chính bản thân mình gây ra.

Theo Hoàng Nam

Trí thức trẻ/CafeBiz

———–&&———-

Phân tích khác biệt với bài toán phân lớp

Phân tích khác biệt với bài toán phân lớp

(Tác giả: Nguyễn Văn Chức – Nguồn: bis.net.vn/forums)

Phân tích khác biệt (Discriminant Analysis) là gì?

Phân tích khác biệt (Discriminant Analysis -DA) là một phương pháp phân tích trong thống kê được dùng rất nhiều trong Data mining để phân loại các đối tượng (object) vào các nhóm dựa trên việc đo lường các đặc trưng của đối tượng. Tùy vào lĩnh vực nghiên cứu mà thuật ngữ Discriminant Analysis còn có nhiều tên gọi khác nhau nhưpattern recognition, supervised learning, or supervised classification .

Bài viết này giới thiệu phương pháp phân tích sự khác biệt tuyến tính (Linear Discriminant Analysis LDA) dùng để giải quyết bài toán phân lớp (classification) các đối tượng. Trong DA nếu số lớp nhiều hơn 2 được gọi là phân tích đa khác biệt (Multiple Discriminant Analysis -MDA).

Mục đích của DA là tìm cách phân loại các đối tượng (người, sự vật,…) vào một trong hai hay nhiều lớp đã được xác định trước dựa vào các đặt trưng (feature) dùng để mô tả đối tượng (ví dụ như các đặc trưng dùng để mô tả đối tượng khách hàng là giới tính, tuổi, nghề nghiệp, thu nhập,…)

Mục đích chính của phân tích sự khác biệt là:

1.      Tìm tập các thuộc tính tốt nhất để mô tả đối tượng. Vấn đề này còn gọi là trích chọn đặc trưng (Feature Extraction) hay lựa chọn đặc trưng (Feature Selection). Mục đích là phần này là từ tập các thuộc tính mô tả đối tượng ban đầu (thường rất lớn, có thể hàng trăm thuộc tính) tìm ra tập các thuộc tính tốt nhất để biểu diễn cho đối tượng nhằm làm giảm số chiều biểu diễn đối tượng từ đó làm giảm chi phí tính toán của các mô hình khai phá dữ liệu nhưng chất lượng của mô hình không bị giảm đi. Xem bài về trích chọn thuộc tính tại đây (http://bis.net.vn/forums/t/505.aspx)

2.      Tìm một mô hình tốt nhất để phân lớp các đối tượng.

Bài viết này chỉ tập trung vào việc ứng dụng DA để giải quyết bài toán phân lớp trong Data Mining.
Phân tích sự khác biệt tuyến tính (Linear Discriminant Analysis -LDA)

Để dễ hình dung ta xem xét một ví dụ đơn giản sau:

Giả sử ta muốn biết liệu một sản phẩm xà phòng là tốt (good) hay xấu (bad) dựa vào các đo lường trên các đặc trưng như trọng lượng (weight), khối lượng (volume), màu sắc (color), mùi (smell). Đối tượng (object) ở đây là xà phòng và thuộc tính phân lớp (class category attribute) ở đây có hai giá trị là “good” và “bad”. Các đặc trưng của đối tượng còn gọi là biến độc lập (Independent Variable) và thuộc tính phân lớp gọi là biến phụ thuộc (Dependent Variable).

Vì vậy trong phân tích sự khác biệt, biến phụ thuộc (Y) là lớp và biến độc lập (X) là các đặc trưng của đối tượng. Biến phụ thuộc luôn có kiểu là nominal trong khi biến độc lập có thể có kiểu bất kỳ nominal, ordinal, interval hay ratio.

Nếu ta giả sử thêm rằng các lớp có thể tách biệt bởi một hàm tuyến tính, chúng ta có thể sử dụng LDA để xây dựng hàm phân lớp. LDA xây dựng hàm phân lớp dựa trên sự kết hợp tuyến tính giữa các đặc trưng của đối tượng. Nếu chỉ có 2 đặc trưng thì hàm phân loại các lớp là đường (line). Nếu số đặc trưng là 3 thì hàm phân lớp là mặt phẳng (plane). Nếu số đặc trưng  nhiều hơn 3 thì hàm phân lớp là siêu mặt phẳng (hyper – lane)

Công thức LDA (LDA Formula)

LDA sử dụng điều kiện phân lớp để tối thiểu lỗi (Total error of classification –TEC) của mô hình. Nguyên tắc phân lớp đối tượng là gán một đối tượng vào một lớp với xác suất có điều kiện cao nhất (nguyên tắc này gọi là nguyên tắc Bayes, Bayes rule). Xem thêm bài viết ứng dụng lý thuyết Bayes trong phân lớp tại đây:http://bis.net.vn/forums/t/390.aspx

Nếu có g lớp, the Bayes’ rule sẽ gán đối tượng x vào lớp i nếu

Cho một tập các đo lường các đặc trưng của x, ta tìm max(P(i|x)) và gán đối tượng x vào lớp i. Tuy nhiên P(i|x) rất khó tính toán. Chúng ta có thể tính P(x|i), tức là xác suất xảy ra x khi đã biết lớp i. Chẳn hạn sau khi đã biết được lớp của sản phẩm xà phòng là good hay bad chúng ta có thể có được các đặc trưng mô tả đối tượng như weight, smell, color,… Nhưng điều ta cần là ngược lại. Có nghĩa là dựa vào các đặc trưng của đối tượng chúng ta phải xác định đối tượng với các đặc trưng đó thuộc lớp nào?

May mắn là trong lý thuyết Bayes có công thức mô tả mối quan hệ giữa 2 xác suất có điều kiện P(i|x) và P(x|i) như sau (CT1):

 Vấn đề là sử dụng CT1 để tính P(i|x) thông qua P(x|i) cũng rất khó triển khai trong thực tế vì để tính được P(x|i) chúng ta cần rất nhiều dữ liệu để tính tần số tương đối của mỗi lớp đối với mỗi đặc trưng của đối tượng.

Để dễ dàng hơn cho việc tính toán, các nhà thống kê và toán học đã tìm ra hàm chuyển đổi gọi là công thức phân tích sự khác biệt tuyến tính (Linear Discriminant Analysis formula) như sau (CT2):

Ví dụ về  Linear Discriminant Analysis

Đây là ví dụ về LDA minh họa về cách sử dụng LDA để phân lớp. Các công thức trên được minh họa tính toán trong MS Excel

Giả sử công ty “ABC” sản xuất sản phẩm rất đắt tiền và chất lượng cao. Sản phẩm được mô tả bởi 2 đặc trưng (feature) đó là Curvature (độ cong) và Diameter (đường kính). Kết quả kiểm soát chất lượng được kiểm tra bởi các chuyên gia được cho trong bảng dưới đây:

Giả sử bạn là cố vấn của công ty “ABC”, bạn được giao nhiệm vụ thiết lập mô hình giúp kiểm tra chất lượng tự động của các sản phẩm của công ty. Bây giờ có sản phẩm vớicurvature = 2.81 và diameter =5.46 (còn gọi là đối tượng cần xếp lớp, query point) thì kết quả sau khi kiểm tra chất lượng là Passed (đạt) hay Not Passed (không đạt). Nói cách khác là xếp lớp sản phẩm cần kiểm tra vào lớp Passed hay Not Passed.

Bạn có thể giải quyết vấn đề này bằng sử dụng Discriminant Analysis

Các bước tiến hành

Nếu ta vẽ 7 sản phẩm (đối tượng) trên theo 2 đặc trưng curvature (trục x) và diameter (trục y) ta thấy rằng ta có thể vẽ một đường để tách biệt giữa lớp passed (gồm 4 sản phẩm passed) và lớp Not Passed (gồm 3 sản phẩm Not passed). Vấn đề là tìm một đường phân tách 2 lớp và quay các thuộc tính để đạt được khoảng cách giữa các lớp là lớn nhất và khoảng cách giữa các đối tượng trong cùng 1 lớp là nhỏ nhất.

Biểu diễn các đối tượng dưới dạng ma trận như sau:

Ma trận các đặc trưng (independent variables) x. Mỗi dòng biểu diễn 1 đối tượng, mỗi cột biểu diễn 1 feature.

Ma trận các lớp y chứa các lớp của đối tượng (biến phụ thuộc –  dependent variable)

Trong ví dụ này ta có ma trận x và y như sau:

 xk là dòng thứ k trong ma trận x. ví dụ x3= [3.75               5.65]

g là số các lớp trong y. Trong ví dụ trên ta có g=2

xi ma trận chứa các đặc trưng của các đối tượng thuộc lớp i. Trong ví dụ trên ta có 2 lớp nên ta tách thành 2 ma trận x1 và x2 như sau:

 

Ma trận hiệp phương sai của lớp i được tính theo công thức sau:

Nói thêm về hiệp phương sai (covariance): Trong lý thuyết xác suất và thống kê, hiệp phương sai là độ đo sự biến thiên cùng nhau của hai biến ngẫu nhiên (phân biệt với phương sai (variance) – đo mức độ biến thiên của một biến. Nếu 2 biến có xu hướng thay đổi cùng nhau (nghĩa là, khi một biến có giá trị cao hơn giá trị kỳ vòng thì biến kia có xu hướng cũng cao hơn giá trị kỳ vọng), thì hiệp phương sai giữa hai biến này có giá trị dương. Ngược lại, nếu một biến nằm trên giá trị kì vọng còn biến kia có xu hướng nằm dưới giá trị kì vọng, thì hiệp phương sai của hai biến này có giá trị âm. Các biến ngẫu nhiên có hiệp phương sai bằng không được gọi là không tương quan (uncorrelated)

Ma trận hiệp phương sai (covariance matrix) của m biến ngẫu nhiên là một ma trận vuông hạng (m × m), trong đó các phần tử nằm trên đường chéo lần lượt là phương saitương ứng của các biến này ( chú ý rằng Var(X) = Cov(X,X)), và các phần tử còn lại (không nằm trên đường chéo) là các hiệp phương sai của đôi một hai biến ngẫu nhiên khác nhau.

Xem chi tiết về cách tính covariance matrix tại đây: http://www.aiaccess.net/English/Glossaries/GlosMod/e_gm_covariance_matrix.htm

Trong ví dụ trên ta tính giá trị cho mỗi bộ (r,s) như sau:

Tổ chức dữ liệu và tính toántrong Excel như sau:

Chú ý một số công thức liên quan đến ma trận là công thức mảng nên phải bấm Ctrl + Shift + Enter để thực hiện.

Theo tính toán thì đối tượng cần phân lớp (Query Point) với curvature = 2.81 và diameter =5.46 được xếp vào lớp 2 (Not passed) vì giá trị Discriminant function của lớp 2 (f2) lớn hơn so với f1 (44.085>44.049). Điều đó có nghĩa là sản phẩm được kiểm tra không đạt chất lượng.

Đồ thị sau cho ta thấy một cách trực quan rằng Query Point thuộc lớp Not Passed 

—————&&—————-