Từ dữ liệu lớn đến dữ liệu tốt: Prof. Andrew Ng kêu gọi cộng đồng ML tập trung vào dữ liệu hơn so với model

Từ dữ liệu lớn đến dữ liệu tốt: Prof. Andrew Ng kêu gọi cộng đồng ML tập trung vào dữ liệu hơn so với model

(Nguồn: https://www.facebook.com/groups/1601966719912937/)

Hiện nay, các thành tựu trong lĩnh vực ML đang được phát triển theo xu hướng tải xuống các model và cố gắng cải thiện kết quả trên các tập dataset tiêu chuẩn. Phần lớn thời gian, mọi người đang sử dụng cho việc cải thiện code, model hoặc các thuật toán. Prof. Andrew Ng cho rằng “Trong rất nhiều bài toán, tôi nhận ra rằng sẽ rất hữu ích nếu chúng ta hướng tư duy về việc không chỉ cải thiện mã mà còn cần cải thiện dữ liệu theo một cách hệ thống hơn.

Thời gian gần đây, Prof. Andrew Ng đã thu hút cộng đồng ML vào MLOps, một lĩnh vực giúp giải quyết việc xây dựng và triển khai các mô hình ML một cách có hệ thống hơn. Prof. Andrew Ng đưa ra quan điểm về việc tăng tốc việc phát triển các hệ thống học máy nếu chúng ta tập trung nhiều hơn vào dữ liệu so với việc lấy mô hình làm trung tâm. Phần mềm truyền thống chỉ được xây dựng bằng cách đoạn mã, trong khi các hệ thống AI được xây dựng bằng cách sử dụng cả mã (mô hình + thuật toán”) và dữ liệu. “Khi có một hệ thống AI làm việc chưa thực sự tốt, mọi người – theo bản năng sẽ cắm đầu vào việc cải thiện các đoạn mã. Đối với các ứng dụng thực tế, tập trung vào việc cải thiện dữ liệu sẽ hiệu quả hơn”.Prof. Andrew Ng cho rằng tiến bộ trong ML đang được thúc đẩy bằng các nỗ lực cải thiện benchmark trên các bộ dữ liệu chuẩn.

Thực tế phổ biến là các researchers thường giữ cố định dữ liệu và tập trung vào việc cải thiện mã. Tuy nhiên, với các tập dữ liệu khiêm tốn, ông cho rằng các team sẽ đạt được tiến bộ nhanh hơn nếu chúng ta có dữ liệu tốt hơn.Người ta thường truyền tai nhau rằng 80% của 1 ML project là làm sạch dữ liệu. Prof. Andrew đặt ra câu hỏi, rằng nếu 80% thời gian là chuẩn bị dữ liệu thì tại sao chúng ta lại không đảm bảo rằng chất lượng dữ liệu là yếu tố quan trọng hàng đầu cho 1 ML project? Dường như không ai quan tâm đến điều này.

Lướt qua arxiv, chúng ta có thể dễ dàng thấy các xu hướng nghiên cứu ML nào đang là “trendy”. Có một sự cạnh tranh điên cuồng trong việc đưa ra các SOTA. Nếu Google có BERT thì OpenAI có GPT-3. Tuy nhiên, những model “khổng lung” này chỉ chiếm 20% trong các vấn đề thực sự cần giải quyết. Một model tốt ở các bài toán thực tế luôn luôn có hình bóng của một tập training data chất lượng. Mọi người giờ ai cũng có thể sử dụng ngay các pretrained model hay các API một cách dễ dàng. Một công ty internet có thể có hàng triệu user data trong 1 ngày bình thường. Nhưng hãy tưởng tượng về việc triển khai AI cho một môi trường khác, chẳng hạn như nông nghiệp hoặc chăm sóc sức khỏe, những nơi không bao giờ có đủ dữ liệu. Bạn không thể mong chờ có một triệu máy kéo hay một triệu ảnh chụp xquang! Trong khi các tập dữ liệu nhỏ hơn gặp nhiều vấn đề với outlier và noisy data, khối lượng dữ liệu lớn hơn lại gặp vấn đề trong việc gán nhãn. Làm thế nào để tiếp cận và hợp tác được với các chuyên gia trong cách chuyên ngành hẹp cũng là một trong các nút thắt cổ chai để thu thập được các tập dữ liệu lớn với chất lượng gán nhãn cao. Theo các chuyên gia, chưa kiểm định được các tập dữ liệu là một trong những thách thức lớn khi triển khai các giải pháp học máy từ phòng thí nghiệm ra sản phẩm thực tế.

Vì vậy, Prof. Andrew có đưa ra một số đề xuất giúp triển khai ML một cách hiệu quả hơn:Nhiệm vụ quan trọng nhất của MLOps chính là cung cấp dữ liệu chất lượng cao.Chìa khóa ở đây chính là tính nhất quán của label – làm thế nào để kiểm tra và giúp cho việc gán nhãn của các đội gán nhãn được nhất quán.Cải thiện chất lượng dữ liệu trên basic model > chạy theo các SOTA model với dữ liệu kém chất lượng.Trong trường hợp có lỗi xảy ra trong quá trình training, hãy lấy dữ liệu làm trung tâm.Khi làm việc với các tập dữ liệu nhỏ, các công cụ để nâng cao chất lượng dữ liệu đóng vai trò quan trọng.Ông muốn phát triển các công cụ MLOps giúp tạo ra các bộ dữ liệu và hệ thống AI tốt hơn trong tương lai mà không chỉ dựa vào các kỹ sư để tìm ra cách tốt nhất để cải thiện tập dữ liệu. Có vẻ như MLOps sẽ là một lĩnh vực mới và rất triển vọng để giải quyết bài toán về dữ liệu.

Đây là một bản lược dịch của mình, các bạn có thể xem bản dịch gốc ở đây:https://analyticsindiamag.com/big-data-to-good-data…/

Tuần trước, Prof. Andrew Ng cũng có 1 buổi streaming dài 1 tiếng về chủ đề này, các bạn quan tâm hơn có thể xem video ở đây:https://www.youtube.com/watch?v=06-AZXmwHjoTranslator: Ha Na Nguyen

Bình luận về bài viết này