Graph Transformer – a break through of Transformer on graph data

Graph Transformer – a break through of Transformer on graph data

(Tác giả: Phạm Đình Khánh – Nguồn: https://www.facebook.com/TowardDataScience/)

Transformer là lớp kiến trúc có thể học tập hiệu quả từ dữ liệu dạng sequential data chẳng hạn như văn bản, âm thanh, chuỗi thời gian. Tuy nhiên chúng cho thấy giới hạn trong việc học các dữ liệu dạng graph (là những dữ liệu kết hợp giữa nodes và edges như social network, logistic, entity relationship, consumption behaviors). Một biến thể mới là Graph Transformer https://arxiv.org/abs/2012.09699 đã cho phép áp khái quát hóa Transformer trên một graph bất kì.

1. Điểm mới mẻ:

Vijay Prakash Dwivedi và Xavier Bresson tại Nanyang Technological University đã tạo ra Graph Transformer (GT), một Transfomer layer được thiết kế để xử lý dữ liệu graph. Xếp chồng các lớp GT sẽ cung cấp một giải pháp Transformer-based thay thế cho các Graph Neural Network điển hình, một dạng kiến trúc áp dụng trên dữ liệu dạng các node và edge kết nối lẫn nhau. Một ví dụ về dữ liệu dạng này: khách hàng kết nối với sản phẩm họ đã mua; tài khoản facebook của bạn kết nối tới những người bạn tương tác; Hoặc các nguyên tử kết nối với nhau trong phân tử.

2. Điểm mấu chốt:

Các nghiên cứu trước đây đã áp dụng Transformer cho graph data bằng cách gán một token cho mỗi node và tính toán attention giữa mỗi một cặp. Phương pháp này mã hóa được:

– local relationships: Chẳng hạn như các nodes nào là hàng xóm (đưa ra một hyperparameter giúp xác định vùng lân cận nằm trong một số mức độ tách biệt)

– global information: Chẳng hạn như khoảng cách của node với các nodes không hàng xóm.

Tuy nhiên, cách tiếp cận này cực kỳ tốn kém đối với các đồ thị lớn, vì tính toán cần thiết cho self-attention tăng lên số lần bằng bậc hai kích thước của đầu vào. Áp dụng attention chỉ tới các nodes hàng xóm giúp nắm bắt thông tin cục bộ quan trọng trong khi cắt giảm gánh nặng tính toán. Trong khi đó, một positional vector biểu thị khoảng cách tương đối của mỗi cặp nodes có thể nắm bắt global information theo cách hiệu quả về mặt tính toán.

3. Nguyên lý hoạt động

Các tác giả đã xây dựng ba mô hình, mỗi mô hình bao gồm các embedding layers, 10 GT layers (bao gồm self-attention và fully connected layers) theo sau là một mạng neural network thông thường. Mỗi mô hình được huấn luyện cho một nhiệm vụ khác nhau: phân loại hai lớp, phân loại sáu lớp và hồi quy ước tính độ hòa tan của các hợp chất hóa học có chứa kẽm.

– Cho một đồ thị, các embedding layers tạo ra một embedding vector và positional vector cho mỗi nút. Sử dụng constrastive learning để tạo ra các positional vector tương tự cho các node hàng xóm và các positinal vector khác nhau cho các nodes cách xa. Cộng embedding vector và positional vector để tạo thành vector biểu diễn cho mỗi node.

– Lớp GT đã mài gọt từng biểu diễn node bằng cách áp dụng self-attention giữa node đó với các nodes lân cận. Sau đó, nó chuyển các biểu diễn nodes sang fully connected layer.

– Mô hình đã thực hiện liên tiếp những bước này qua 10 layers và cung cấp các biểu diễn cuối cùng cho một neural network thông thường nhằm thực hiện phân loại hoặc hồi quy.

4. Kết quả:

Mô hình của các tác giả lần lượt đạt được 73,17% và 84,81% accuracy đối với các nhiệm vụ phân loại nhị phân và sáu lớp. Một baseline khác là GAT (ICLR 2018): https://arxiv.org/pdf/1710.10903.pdf áp dụng attention qua các biểu diễn node hàng xóm đạt accuracy lần lượt là 70,58% và 78,27% accuracy. Trong nhiệm vụ hồi quy, mô hình của các tác giả đã đạt được sai số tuyệt đối trung bình (MAE) là 0,226 so với GAT là 0,384 (MAE càng thấp càng tốt). Tuy nhiên, nó hoạt động kém hơn một chút so với Gated Graph ConvNet: https://arxiv.org/abs/1711.07553 trong cả ba tác vụ này

5. Suy nghĩ của tôi:

Kể từ khi ra đời vào năm 2017 trong paper “Attention is all you need”, các kiến trúc họ Transformer đã chứng minh được sức mạnh của chúng đối với ban đầu là dữ liệu văn bản, âm thanh và sau đó là hình ảnh, timeseries data. Không những thế, đối với graph data thì paper này đã chứng minh chúng là hoàn toàn hữu ích. Mặc dù Graph Transformer không phải là mạng neural network mạnh nhất nhưng đã tạo ra một strong baseline củng cố cho những nghiên cứu tiếp theo trong lĩnh vực này. Sẽ là thế nào nếu áp dụng Graph Transformer trên dữ liệu văn bản, âm thanh, hình ảnh?

Bình luận về bài viết này