“FrameDiff” của MIT – AI sáng tạo tưởng tượng các cấu trúc protein mới có thể biến đổi y học

“FrameDiff” của MIT – AI sáng tạo tưởng tượng các cấu trúc protein mới có thể biến đổi y học

    Các nhà nghiên cứu của MIT phát triển “FrameDiff”, một công cụ tính toán sử dụng trí tuệ nhân tạo để tạo ra các cấu trúc protein mới, nhằm mục đích đẩy nhanh quá trình phát triển thuốc và cải thiện liệu pháp gen.

    AI sáng tạo tưởng tượng ra cấu trúc protein mới

    Hệ thống FrameDiff đã được thử nghiệm với nhiệm vụ xây dựng các protein đơn lẻ và các nhà nghiên cứu nhận thấy nó có thể tạo ra các protein lớn với tối đa 500 phần. Không giống như các phương pháp trước đây, phương pháp này không cần dựa vào bản đồ cấu trúc protein có sẵn. Nhà cung cấp hình ảnh: Alex Shipps/MIT CSAIL qua Midjourney

    Các nhà nghiên cứu CSAIL của MIT đã phát triển một công cụ tính toán, FrameDiff, sử dụng AI tổng quát để tạo ra các cấu trúc protein mới. Nó sử dụng máy học để mô hình hóa các “xương sống” protein và điều chỉnh chúng ở dạng 3D, tạo ra các protein ngoài các thiết kế đã biết. Bước đột phá này có thể đẩy nhanh quá trình phát triển thuốc và tăng cường liệu pháp gen bằng cách tạo ra các protein liên kết hiệu quả hơn với các ứng dụng tiềm năng trong công nghệ sinh học, phân phối thuốc theo mục tiêu, v.v.

    Sinh học là một tấm thảm tuyệt vời nhưng tinh tế. Trung tâm là DNA, công cụ dệt bậc thầy mã hóa protein, chịu trách nhiệm điều phối nhiều chức năng sinh học nhằm duy trì sự sống trong cơ thể con người. Tuy nhiên, cơ thể chúng ta giống như một nhạc cụ được điều chỉnh tinh vi, dễ bị mất đi sự hài hòa. Suy cho cùng, chúng ta đang phải đối mặt với một thế giới tự nhiên luôn thay đổi và không ngừng nghỉ: mầm bệnh, vi rút, bệnh tật và ung thư.

    Hãy tưởng tượng liệu chúng ta có thể đẩy nhanh quá trình tạo ra vắc xin hoặc thuốc cho những mầm bệnh mới xuất hiện hay không. Điều gì sẽ xảy ra nếu chúng ta có công nghệ chỉnh sửa gen có khả năng tự động sản xuất protein để sửa chữa các lỗi DNA gây ung thư? Nhiệm vụ xác định các protein có thể liên kết mạnh với mục tiêu hoặc tăng tốc độ phản ứng hóa học là rất quan trọng cho việc phát triển thuốc, chẩn đoán và nhiều ứng dụng công nghiệp, tuy nhiên đây thường là một nỗ lực kéo dài và tốn kém.

    Để nâng cao khả năng của chúng ta trong kỹ thuật protein, các nhà nghiên cứu của MIT CSAIL đã nghĩ ra “FrameDiff”, một công cụ tính toán để tạo ra các cấu trúc protein mới ngoài những gì thiên nhiên đã tạo ra. Phương  pháp học máy  tạo ra các “khung” phù hợp với các đặc tính vốn có của cấu trúc protein, cho phép nó tạo ra các protein mới độc lập với các thiết kế có sẵn, tạo điều kiện thuận lợi cho các cấu trúc protein chưa từng có.

    “Trong tự nhiên, thiết kế protein là một quá trình đốt cháy chậm, mất hàng triệu năm. Kỹ thuật của chúng tôi nhằm mục đích đưa ra câu trả lời cho việc giải quyết các vấn đề do con người tạo ra phát triển nhanh hơn nhiều so với tốc độ của tự nhiên”, nghiên cứu sinh tiến sĩ MIT CSAIL Jason Yim, tác giả chính của bài báo mới về công trình cho biết. “Mục đích liên quan đến khả năng tạo ra cấu trúc protein tổng hợp mới này là mở ra vô số khả năng nâng cao, chẳng hạn như chất kết dính tốt hơn. Điều này có nghĩa là các protein kỹ thuật có thể gắn vào các phân tử khác một cách hiệu quả và có chọn lọc hơn, với ý nghĩa rộng rãi liên quan đến việc phân phối thuốc theo mục tiêu và công nghệ sinh học, nơi nó có thể dẫn đến sự phát triển các cảm biến sinh học tốt hơn. Nó cũng có thể có ý nghĩa đối với lĩnh vực y sinh và hơn thế nữa, mang lại những khả năng như phát triển các protein quang hợp hiệu quả hơn,

    Khung KhungDiff

    Protein có cấu trúc phức tạp, được tạo thành từ nhiều nguyên tử được nối với nhau bằng liên kết hóa học. Các nguyên tử quan trọng nhất quyết định hình dạng 3D của protein được gọi là “xương sống”, giống như xương sống của protein. Mỗi bộ ba nguyên tử dọc theo đường trục đều có chung kiểu liên kết và kiểu nguyên tử. Các nhà nghiên cứu nhận thấy mô hình này có thể được khai thác để xây dựng các thuật toán học máy bằng cách sử dụng các ý tưởng từ hình học vi phân và xác suất. Đây là lúc các khung xuất hiện: Về mặt toán học, các bộ ba này có thể được mô hình hóa thành các vật thể cứng nhắc gọi là “khung” (phổ biến trong vật lý) có vị trí và góc quay trong không gian 3D.

    Tạo cấu trúc protein với FrameDiff. Nhà cung cấp hình ảnh: Ian Haydon/Viện Thiết kế Protein

    Những khung này trang bị cho mỗi bộ ba đủ thông tin để biết về không gian xung quanh nó. Sau đó, nhiệm vụ dành cho thuật toán học máy là học cách di chuyển từng khung hình để tạo nên khung xương protein. Bằng cách học cách xây dựng các protein hiện có, thuật toán hy vọng sẽ khái quát hóa và có thể tạo ra các protein mới chưa từng thấy trước đây trong tự nhiên.

    Việc huấn luyện một mô hình để tạo ra protein thông qua quá trình “khuếch tán” bao gồm việc đưa vào tiếng ồn để di chuyển ngẫu nhiên tất cả các khung và làm mờ hình dáng của protein ban đầu. Công việc của thuật toán là di chuyển và xoay từng khung hình cho đến khi trông giống như protein ban đầu. Mặc dù đơn giản nhưng việc phát triển khuếch tán trên khung đòi hỏi các kỹ thuật tính toán ngẫu nhiên trên đa tạp Riemannian. Về mặt lý thuyết, các nhà nghiên cứu đã phát triển “khuếch tán SE(3)” để học phân bố xác suất kết nối một cách không cần thiết các thành phần tịnh tiến và xoay của mỗi khung.

    Nghệ thuật khuếch tán tinh tế

    Vào năm 2021, DeepMind đã giới thiệu AlphaFold2, một thuật toán học sâu để dự đoán cấu trúc protein 3D từ trình tự của chúng. Khi tạo protein tổng hợp, có hai bước thiết yếu: tạo và dự đoán. Thế hệ có nghĩa là tạo ra các cấu trúc và trình tự protein mới, trong khi “dự đoán” có nghĩa là tìm ra cấu trúc 3D của trình tự là gì. Không phải ngẫu nhiên mà AlphaFold2 còn sử dụng khung để mô hình hóa protein. Khuếch tán SE(3) và FrameDiff được lấy cảm hứng để đưa ý tưởng về khung đi xa hơn bằng cách kết hợp khung vào mô hình khuếch tán, một kỹ thuật AI tổng quát đã trở nên vô cùng phổ biến trong việc tạo hình ảnh, chẳng hạn như Midjourney.

    Các khung và nguyên tắc chung giữa việc tạo và dự đoán cấu trúc protein có nghĩa là các mô hình tốt nhất từ ​​​​cả hai đầu đều tương thích. Phối hợp với Viện Thiết kế Protein tại Đại học Washington, phương pháp khuếch tán SE(3) đã được sử dụng để tạo ra và xác nhận bằng thực nghiệm các protein mới. Cụ thể, họ đã kết hợp khuếch tán SE(3) với RosettaFold2, một công cụ dự đoán cấu trúc protein giống như AlphaFold2, dẫn đến “khuếch tán RF”. Công cụ mới này đưa các nhà thiết kế protein đến gần hơn với việc giải quyết các vấn đề quan trọng trong công nghệ sinh học, bao gồm phát triển chất kết dính protein đặc hiệu cao để thiết kế vắc xin tăng tốc, kỹ thuật protein đối xứng để chuyển gen và khung mô-đun mạnh mẽ để thiết kế enzyme chính xác.

    Những nỗ lực trong tương lai của FrameDiff liên quan đến việc cải thiện tính tổng quát cho các vấn đề kết hợp nhiều yêu cầu đối với sinh học như thuốc. Một phần mở rộng khác là khái quát hóa các mô hình cho tất cả các phương thức sinh học bao gồm DNA và các phân tử nhỏ. Nhóm khẳng định rằng bằng cách mở rộng hoạt động đào tạo của FrameDiff về dữ liệu quan trọng hơn và tăng cường quy trình tối ưu hóa, nó có thể tạo ra các cấu trúc nền tảng có khả năng thiết kế ngang bằng với RFdiffusion, trong khi vẫn duy trì tính đơn giản vốn có của FrameDiff.

    Nhà sinh vật học tính toán của Đại học Harvard, Sergey Ovchinnikov, cho biết: “Việc loại bỏ mô hình dự đoán cấu trúc đã được huấn luyện trước [trong FrameDiff] sẽ mở ra khả năng tạo ra các cấu trúc nhanh chóng có chiều dài lớn”. Cách tiếp cận đổi mới của các nhà nghiên cứu đưa ra một bước đi đầy hứa hẹn nhằm khắc phục những hạn chế của các mô hình dự đoán cấu trúc hiện tại. Mặc dù đây vẫn chỉ là công việc sơ bộ nhưng đây là một bước tiến đáng khích lệ theo đúng hướng. Do đó, tầm nhìn về thiết kế protein, đóng vai trò then chốt trong việc giải quyết những thách thức cấp bách nhất của nhân loại, dường như ngày càng nằm trong tầm tay nhờ vào công trình tiên phong của nhóm nghiên cứu MIT này.”

    Yim đã viết bài báo cùng với postdoc Brian Trippe của Đại học Columbia, Trung tâm nghiên cứu khoa học quốc gia Pháp tại Trung tâm nghiên cứu khoa học dữ liệu của Paris, Valentin De Bortoli, postdoc của Đại học Cambridge Emile Mathieu, và giáo sư thống kê và nhà khoa học nghiên cứu cao cấp của Đại học Oxford tại DeepMind Arnaud Doucet . Các giáo sư MIT Regina Barzilay và Tommi Jaakkola đã tư vấn cho nghiên cứu.

    Công việc của nhóm được hỗ trợ một phần bởi Phòng khám MIT Abdul Latif Jameel về Học máy trong Y tế, các khoản tài trợ của EPSRC và Quan hệ đối tác thịnh vượng giữa Nghiên cứu của Microsoft và Đại học Cambridge, Chương trình học bổng nghiên cứu sau đại học của Quỹ khoa học quốc gia, trợ cấp NSF Expeditions, Học máy cho tập đoàn Khám phá và Tổng hợp Dược phẩm, chương trình DTRA Khám phá các biện pháp đối phó y tế chống lại các mối đe dọa mới và mới nổi, chương trình Khám phá phân tử tăng tốc DARPA và trợ cấp Thiết kế kháng thể tính toán của Sanofi. Nghiên cứu này sẽ được trình bày tại Hội nghị quốc tế về học máy vào tháng 7.

    Tham khảo: “Mô hình khuếch tán SE(3) ứng dụng vào việc tạo xương sống protein” của Jason Yim, Brian L. Trippe, Valentin De Bortoli, Emile Mathieu, Arnaud Doucet, Regina Barzilay và Tommi Jaakkola, ngày 22 tháng 5 năm 2023, Khoa học Máy tính > Học  máy .
    arXiv:2302.02277

    Zalo
    Hotline