Giới thiệu ngắn gọn về Học sâu hình học

Giới thiệu ngắn gọn về Học sâu hình học

(Nguồn: https://towardsdatascience.com/)

Học sâu (Deep Learning) là khó. Trong khi các định lý xấp xỉ phổ quát cho thấy rằng các mạng nơ-ron đủ phức tạp về nguyên tắc có thể xấp xỉ “bất cứ thứ gì”, không có gì đảm bảo rằng chúng ta có thể tìm thấy các mô hình tốt.

Tuy nhiên, tiến bộ vượt bậc trong học sâu đã được thực hiện nhờ sự lựa chọn sáng suốt các kiến ​​trúc mô hình. Các kiến ​​trúc mô hình này mã hóa các thành kiến ​​quy nạp để hỗ trợ mô hình. Một trong những thành kiến ​​quy nạp mạnh mẽ nhất là tận dụng các khái niệm về hình học, làm nảy sinh lĩnh vực học sâu hình học (geometric deep learning).

Thuật ngữ học sâu hình học lần đầu tiên được đặt ra bởi Michael Bronstein, một người tiên phong trong lĩnh vực này (xem các bài đăng của anh ấy để có những hiểu biết thú vị về nhiều nghiên cứu học sâu mới nhất, cũng như tổng quan sâu rộng về lĩnh vực này). Trong bài đăng này, thay vì đi sâu vào kỹ thuật cỏ dại, chúng tôi trình bày một giới thiệu rất ngắn gọn về học sâu hình học. Chúng tôi chủ yếu theo dõi cuốn sách xuất sắc gần đây của Bronstein và các đồng nghiệp [1] nhưng cung cấp những điểm độc đáo của riêng chúng tôi và tập trung vào các khái niệm cấp cao hơn là các chi tiết kỹ thuật.

Phân loại Học sâu hình học

Trong cuốn sách gần đây của Bronstein [1], học sâu hình học được phân loại thành bốn loại cơ bản, như được minh họa trong sơ đồ bên dưới.

Bronstein nói về 5 nhóm (mở rộng phân loại 4 nhóm lần đầu tiên được giới thiệu bởi Max Welling [1]): lưới; các nhóm; đồ thị; và máy đo và trắc địa. Vì hai nhóm cuối cùng này có liên quan chặt chẽ với nhau, chúng tôi chỉ xem xét bốn loại khác nhau, tức là 4 nhóm.

Danh mục lưới (grid)  ghi lại dữ liệu được lấy mẫu thường xuyên, hoặc được đánh lưới, chẳng hạn như hình ảnh 2D. Những dữ liệu này có lẽ thường là nguồn cung cấp của học sâu cổ điển. Tuy nhiên, cũng có thể giải thích nhiều mô hình học sâu cổ điển theo quan điểm hình học (chẳng hạn như CNN là một phương tương đương tịnh tiến của chúng, như đã thảo luận ở trên).

Danh mục nhóm (group) bao gồm các không gian đồng nhất với các đối xứng toàn cục. Ví dụ chính tắc của danh mục này là hình cầu (được đề cập chi tiết hơn trong bài viết trước của chúng tôi [3]). Dữ liệu hình cầu phát sinh trong các ứng dụng myrad, không chỉ khi dữ liệu được thu thập trực tiếp trên hình cầu (chẳng hạn như trên Trái đất hoặc bằng máy ảnh 360 ° chụp ảnh và video toàn cảnh), mà còn khi xem xét các đối xứng hình cầu (chẳng hạn như trong hóa học phân tử hoặc từ tính chụp cộng hưởng). Trong khi hình cầu là thiết lập nhóm phổ biến nhất, các nhóm khác và các đối xứng tương ứng của chúng cũng có thể được xem xét.

Danh mục đồ thị (graph) bao gồm dữ liệu có thể được biểu thị bằng đồ thị tính toán, với các nút và cạnh. Các mạng rất phù hợp với các biểu diễn như vậy, do đó học sâu về đồ thị đã được ứng dụng rộng rãi trong việc nghiên cứu các mạng xã hội. Phương pháp tiếp cận đồ thị đối với học sâu hình học cung cấp tính linh hoạt cao vì nhiều dữ liệu có thể được biểu diễn bằng đồ thị. Tuy nhiên, tính linh hoạt này có thể đi kèm với việc mất đi tính cụ thể và những lợi thế mang lại. Ví dụ, việc thiết lập nhóm thường có thể được xem xét bằng cách tiếp cận đồ thị nhưng trong trường hợp này, người ta sẽ mất kiến ​​thức cơ bản về nhóm, điều này có thể được tận dụng.

Danh mục máy đo và trắc địa (geodesics and gauges) liên quan đến việc học sâu về các hình dạng phức tạp hơn, chẳng hạn như các hình dạng tổng quát hơn và các mắt lưới 3D. Những cách tiếp cận như vậy có thể được sử dụng rất nhiều trong thị giác máy tính và đồ họa, chẳng hạn, nơi người ta có thể thực hiện học sâu với các mô hình 3D và các biến dạng của chúng.

Triển vọng tương lai

Học sâu hiện đã trở nên phổ biến đối với các loại dữ liệu tiêu chuẩn, chẳng hạn như dữ liệu có cấu trúc, tuần tự và dữ liệu hình ảnh. Tuy nhiên, để đưa ứng dụng của học sâu vào các bộ dữ liệu – hình học – phức tạp hơn khác, hình học của dữ liệu đó phải được mã hóa trong các mô hình học sâu, tạo ra lĩnh vực học sâu hình học.

Học sâu hình học là một lĩnh vực mang tính thời sự và đang phát triển nhanh chóng, nơi đã đạt được nhiều tiến bộ. Tuy nhiên, vẫn còn nhiều câu hỏi chưa được giải đáp, không chỉ ở bản thân các mô hình mà còn xung quanh khả năng mở rộng và ứng dụng thực tế. Chúng tôi sẽ giải quyết những vấn đề này trong các bài viết sắp tới, cho thấy cách giải quyết các vấn đề như vậy là rất quan trọng để mở ra tiềm năng đáng chú ý của học sâu cho một loạt các ứng dụng mới.

References

[1] Bronstein, Bruna, Cohen, Velickovic, Geometric Deep Learning: Grids, Groups, Graphs, Geodesics, and Gauges (2021), arXix:2104.13478

[2] McEwen, Wallis, Mavor-Parker, Scattering Networks on the Sphere for Scalable and Rotationally Equivariant Spherical CNNs, ICLR (2022), arXiv:2102.02828

[3] Cobb, Wallis, Mavor-Parker, Marignier, Price, d’Avezac, McEwen, Efficient Generalised Spherical CNNs, ICLR (2021), arXiv:2010.11661

(Bài gốc: https://towardsdatascience.com/a-brief-introduction-to-geometric-deep-learning-dae114923ddb)

Bình luận về bài viết này