AI có thể giải thích để giải mã sinh học bộ gen

AI có thể giải thích để giải mã sinh học bộ gen

(Nguồn: https://yhocchinhxac.wordpress.com/)

Các nhà nghiên cứu tại Viện Nghiên cứu Y khoa Stowers, phối hợp với các đồng nghiệp tại Đại học Stanford và Đại học Kỹ thuật Munich đã phát triển trí tuệ nhân tạo tiên tiến có thể giải thích được (AI) để giải mã các hướng dẫn quy định được mã hóa trong DNA. Trong một báo cáo được công bố trực tuyến ngày 18 tháng 2 năm 2021, trên tạp chí Nature Genetics, nhóm nghiên cứu đã phát hiện ra rằng một mạng lưới thần kinh (neural network) được huấn luyện trên bản đồ độ phân giải cao về sự tương tác giữa protein-DNA có thể phát hiện ra các mẫu chuỗi DNA tinh vi trong toàn bộ hệ gen và cung cấp hiểu biết sâu hơn về cách các trình tự này được tổ chức để điều hòa các gen. 
Mạng nơ-ron là mô hình AI mạnh mẽ có thể học các mẫu phức tạp từ nhiều loại dữ liệu khác nhau như hình ảnh, tín hiệu giọng nói hoặc văn bản để dự đoán các thuộc tính liên quan với độ chính xác cao ấn tượng. Tuy nhiên, nhiều người cho rằng các mô hình này là không thể giải thích được vì các mẫu dự đoán đã học rất khó lấy ra từ mô hình. Bản chất hộp đen này đã cản trở ứng dụng rộng rãi của mạng nơ-ron vào sinh học, nơi việc giải thích các mẫu dự đoán là tối quan trọng. 
Một trong những vấn đề lớn chưa được giải quyết trong sinh học là mã thứ hai của bộ gen - mã quy định của nó. Các cơ sở DNA (thường được biểu thị bằng các chữ cái A, C, G và T) không chỉ mã hóa các chỉ dẫn về cách tạo ra protein mà còn mã hóa khi nào và ở đâu để tạo ra các protein này trong một sinh vật. Mã điều hòa được đọc bởi các protein được gọi là các yếu tố phiên mã gắn với các đoạn ngắn của DNA được gọi là mô-típ. Tuy nhiên, việc kết hợp và sắp xếp các mô típ cụ thể như thế nào để xác định hoạt động điều tiết là một vấn đề cực kỳ phức tạp khó có thể xác định được. 
Giờ đây, một nhóm liên ngành gồm các nhà sinh học và nhà nghiên cứu tính toán do Nhà điều tra Julia Zeitlinger, Tiến sĩ và Anshul Kundaje, Tiến sĩ, từ Đại học Stanford, dẫn đầu, đã thiết kế một mạng thần kinh - có tên là BPNet cho Mạng cặp cơ sở - có thể được giải thích để tiết lộ mã điều chỉnh bằng cách dự đoán liên kết yếu tố phiên mã từ trình tự DNA với độ chính xác chưa từng có. Chìa khóa quan trọng là thực hiện các thí nghiệm liên kết yếu tố phiên mã-DNA và mô hình tính toán ở độ phân giải cao nhất có thể, cho đến mức các cơ sở DNA riêng lẻ. Độ phân giải gia tăng này cho phép họ phát triển các công cụ giải thích mới để trích xuất các mẫu trình tự nguyên tố chính như các mô típ liên kết yếu tố phiên mã và các quy tắc tổ hợp mà các mô típ này hoạt động cùng nhau như một mã điều chỉnh. 
Zeitlinger nói: “Điều này khiến chúng tôi vô cùng hài lòng, vì kết quả phù hợp tuyệt vời với các kết quả thí nghiệm hiện có và cũng tiết lộ những hiểu biết mới lạ khiến chúng tôi ngạc nhiên”.
Ví dụ, các mô hình mạng nơ-ron cho phép các nhà nghiên cứu khám phá ra một quy tắc nổi bật chi phối sự liên kết của yếu tố phiên mã đã được nghiên cứu kỹ lưỡng gọi là Nanog. Họ phát hiện ra rằng Nanog liên kết hợp tác với DNA khi nhiều mô típ của nó xuất hiện theo chu kỳ sao cho chúng xuất hiện trên cùng một phía của chuỗi xoắn DNA. 
Zeitlinger cho biết: “Đã có một dấu vết dài bằng chứng thực nghiệm cho thấy tính tuần hoàn của mô típ đó đôi khi tồn tại trong bộ luật quy định. "Tuy nhiên, hoàn cảnh chính xác rất khó nắm bắt và Nanog không phải là nghi phạm. Việc phát hiện ra rằng Nanog có một mẫu như vậy và xem thêm chi tiết về các tương tác của nó, thật đáng ngạc nhiên vì chúng tôi đã không tìm kiếm cụ thể mẫu này." 
Tiến sĩ iga Avsec, tác giả đầu tiên của bài báo cho biết: “Đây là lợi thế chính của việc sử dụng mạng nơ-ron cho nhiệm vụ này. Avsec và Kundaje đã tạo ra phiên bản đầu tiên của mô hình khi Avsec đến thăm Stanford trong quá trình nghiên cứu tiến sĩ tại phòng thí nghiệm của Tiến sĩ Julien Gagneur tại Đại học Kỹ thuật ở Munich, Đức. 
Avsec cho biết: "Tin sinh học truyền thống hơn tiếp cận dữ liệu mô hình bằng cách sử dụng các quy tắc cứng nhắc được xác định trước dựa trên kiến ​​thức hiện có. Tuy nhiên, sinh học vô cùng phong phú và phức tạp". "Bằng cách sử dụng mạng nơ-ron, chúng tôi có thể đào tạo các mô hình linh hoạt và nhiều sắc thái hơn nhiều để học các mô hình phức tạp từ đầu mà không cần kiến ​​thức trước đó, do đó cho phép khám phá ra những điều mới lạ." 
Kiến trúc mạng của BPNet tương tự như kiến ​​trúc mạng nơ-ron được sử dụng để nhận dạng khuôn mặt trong hình ảnh. Ví dụ: mạng nơ-ron đầu tiên phát hiện các cạnh trong pixel, sau đó tìm hiểu cách các cạnh hình thành các yếu tố trên khuôn mặt như mắt, mũi hoặc miệng và cuối cùng phát hiện cách các yếu tố trên khuôn mặt cùng nhau tạo thành một khuôn mặt. Thay vì học từ các pixel, BPNet học từ chuỗi DNA thô và học cách phát hiện các mô típ trình tự và cuối cùng là các quy tắc bậc cao mà các phần tử dự đoán dữ liệu liên kết có độ phân giải cơ sở.
Một khi mô hình được đào tạo để có độ chính xác cao, các mô hình đã học sẽ được trích xuất bằng các công cụ giải đoán. Tín hiệu đầu ra được truy tìm trở lại các trình tự đầu vào để hiển thị các mô típ trình tự. Bước cuối cùng là sử dụng mô hình như một tiên tri và truy vấn nó một cách có hệ thống với các thiết kế trình tự DNA cụ thể, tương tự như những gì người ta sẽ làm để kiểm tra các giả thuyết bằng thực nghiệm, để tiết lộ các quy tắc mà các mô típ trình tự hoạt động theo cách tổ hợp. 
Zeitlinger nói: “Vẻ đẹp là mô hình có thể dự đoán nhiều cách thiết kế trình tự hơn mà chúng tôi có thể kiểm tra bằng thực nghiệm. "Hơn nữa, bằng cách dự đoán kết quả của nhiễu loạn thử nghiệm, chúng tôi có thể xác định các thử nghiệm có nhiều thông tin nhất để xác thực mô hình." Thật vậy, với sự trợ giúp của kỹ thuật chỉnh sửa gen CRISPR, các nhà nghiên cứu đã xác nhận bằng thực nghiệm rằng các dự đoán của mô hình có độ chính xác cao. 
Vì cách tiếp cận này linh hoạt và có thể áp dụng cho nhiều loại dữ liệu và kiểu tế bào khác nhau, nên nó hứa hẹn sẽ dẫn đến sự hiểu biết ngày càng tăng nhanh chóng về mã quy định và cách sự biến đổi di truyền tác động đến quá trình điều hòa gen. Cả Phòng thí nghiệm Zeitlinger và Phòng thí nghiệm Kundaje đều đã sử dụng BPNet để xác định một cách đáng tin cậy các mô-típ liên kết cho các loại tế bào khác, liên hệ các mô-típ với các thông số lý sinh và tìm hiểu các đặc điểm cấu trúc khác trong bộ gen, chẳng hạn như các đặc điểm liên quan đến đóng gói DNA. Để cho phép các nhà khoa học khác sử dụng BPNet và điều chỉnh nó theo nhu cầu riêng của họ, các nhà nghiên cứu đã cung cấp toàn bộ khung phần mềm với tài liệu và hướng dẫn.

Bình luận về bài viết này