Phá vỡ AI để làm cho chúng tốt hơn

Posted on 02.07.2022 by Tuấn Lê

Các hệ thống trí tuệ nhân tạo ngày nay được sử dụng để nhận dạng hình ảnh vô cùng mạnh mẽ với tiềm năng lớn cho các ứng dụng thương mại. Tuy nhiên, các mạng nơ-ron nhân tạo hiện tại – các thuật toán học sâu hỗ trợ khả năng nhận dạng hình ảnh – mắc phải một thiếu sót lớn: chúng dễ bị phá vỡ bởi các hình ảnh thậm chí chỉ được sửa đổi một chút.

Sự thiếu ‘mạnh mẽ/robustness’ này là một trở ngại đáng kể đối với các nhà nghiên cứu hy vọng xây dựng những AI tốt hơn. Tuy nhiên, chính xác tại sao hiện tượng này xảy ra, và các cơ chế cơ bản đằng sau nó, phần lớn vẫn chưa được biết.

Với mục tiêu một ngày nào đó sẽ khắc phục được những sai sót này, các nhà nghiên cứu tại Khoa Khoa học Thông tin và Kỹ thuật Điện của Đại học Kyushu đã công bố trên PLOS ONE một phương pháp có tên là ‘Raw Zero-Shot’ để đánh giá cách mạng nơ-ron xử lý các phần tử chưa được biết đến. Kết quả có thể giúp các nhà nghiên cứu xác định các đặc điểm chung khiến AI trở nên ‘không mạnh mẽ/non-robust’ và phát triển các phương pháp để khắc phục các vấn đề của chúng.

Danilo Vasconcellos Vargas, người đứng đầu cuộc nghiên cứu, giải thích: “Có một loạt các ứng dụng trong thế giới thực cho mạng nơ-ron nhận dạng hình ảnh, bao gồm xe tự lái và các công cụ chẩn đoán trong chăm sóc sức khỏe”. “Tuy nhiên, cho dù AI được đào tạo tốt đến đâu, nó vẫn có thể thất bại dù chỉ một chút thay đổi trong hình ảnh.”

Trên thực tế, các AI nhận dạng hình ảnh được ‘huấn luyện’ trên nhiều hình ảnh mẫu trước khi được yêu cầu xác định một hình ảnh. Ví dụ: nếu bạn muốn AI nhận dạng vịt, trước tiên bạn phải huấn luyện nó trên nhiều bức ảnh về vịt.

Tuy nhiên, ngay cả những AI được đào tạo tốt nhất cũng có thể bị đánh lừa. Trên thực tế, các nhà nghiên cứu đã phát hiện ra rằng một hình ảnh có thể được điều khiển sao cho – trong khi nó có thể trông không thay đổi đối với mắt người – AI không thể xác định chính xác nó. Ngay cả một sự thay đổi một pixel trong hình ảnh cũng có thể gây ra nhầm lẫn.

Để hiểu rõ hơn tại sao điều này xảy ra, nhóm đã bắt đầu điều tra các AI nhận dạng hình ảnh khác nhau với hy vọng xác định các mẫu trong cách chúng cư xử khi đối mặt với các mẫu mà chúng chưa được đào tạo, tức là các yếu tố AI chưa biết.

“Nếu bạn đưa một hình ảnh cho một AI, nó sẽ cố gắng cho bạn biết đó là gì, bất kể câu trả lời đó có đúng hay không. Vì vậy, chúng tôi đã lấy 12 AI phổ biến nhất hiện nay và áp dụng một phương pháp mới có tên là Raw Zero-Shot Learning”; Vargas tiếp tục. “Về cơ bản, chúng tôi đã cung cấp cho các AI một loạt hình ảnh mà không có gợi ý hay huấn luyện nào. Giả thuyết của chúng tôi là sẽ có mối tương quan trong cách chúng trả lời. Chúng sẽ sai, nhưng cũng sai theo cách tương tự.”

Những gì họ tìm thấy chỉ có vậy. Trong mọi trường hợp, AI nhận dạng hình ảnh sẽ tạo ra câu trả lời và các câu trả lời – dù sai – sẽ nhất quán, nghĩa là chúng sẽ tập hợp lại với nhau. Mật độ của mỗi cụm sẽ cho biết cách AI xử lý các hình ảnh không xác định dựa trên kiến thức nền tảng của nó về các hình ảnh khác nhau.

“Nếu chúng ta hiểu AI đang làm gì và nó học được gì khi xử lý các hình ảnh không xác định, chúng ta có thể sử dụng cùng hiểu biết đó để phân tích lý do tại sao AI bị hỏng khi đối mặt với các hình ảnh có các thay đổi một pixel hoặc các sửa đổi nhỏ”, Vargas nói. “Việc sử dụng kiến thức chúng tôi thu được để giải quyết một vấn đề bằng cách áp dụng nó vào một vấn đề khác nhưng có liên quan được gọi là Khả năng chuyển giao.”

Nhóm nghiên cứu đã quan sát thấy rằng Mạng Capsule, còn được gọi là CapsNet, tạo ra các cụm dày đặc nhất, mang lại cho nó khả năng chuyển giao tốt nhất trong số các mạng thần kinh. Họ tin rằng đó có thể là do bản chất động lực học của CapsNet.

Vargas kết luận: “Mặc dù các AI ngày nay là chính xác, nhưng chúng thiếu tính mạnh mẽ cho các tiện ích khác. Chúng tôi cần hiểu vấn đề là gì và tại sao nó lại xảy ra. “Thay vì chỉ tập trung vào độ chính xác, chúng ta phải nghiên cứu các cách để cải thiện tính mạnh mẽ và tính linh hoạt. Sau đó, chúng ta có thể phát triển một trí tuệ nhân tạo thực sự.”

Filed under: DS & ML & AI |

« Bước tiến nhỏ của Tạp chí Nature, bước nhảy vọt lớn vượt qua khoảng cách giới: tạp chí hàng đầu sẽ bắt buộc báo cáo về giới tính và giới trong nghiên cứu Ứng dụng mô hình Random Forest để dự báo giá quặng sắt thế giới »

MFEDE

Chuyên mục

Thẻ

Bài & Trang được đáng chú ý

Bài viết mới