Mô hình hàng đầu tiếp theo: Nghiên cứu AI dựa trên cạnh tranh nhằm mục đích giảm chi phí trung tâm dữ liệu

Mô hình hàng đầu tiếp theo: Nghiên cứu AI dựa trên cạnh tranh nhằm mục đích giảm chi phí trung tâm dữ liệu

    Ai, hay đúng hơn là cái gì, sẽ là mô hình hàng đầu tiếp theo? Các nhà khoa học dữ liệu và nhà phát triển tại Cơ sở tăng tốc quốc gia Thomas Jefferson của Bộ Năng lượng Hoa Kỳ đang cố gắng tìm hiểu, khám phá một số kỹ thuật trí tuệ nhân tạo (AI) mới nhất để giúp máy tính hiệu suất cao trở nên đáng tin cậy hơn và ít tốn kém hơn khi vận hành.

    Mô hình hàng đầu tiếp theo: Nghiên cứu AI dựa trên cạnh tranh nhằm mục đích giảm chi phí trung tâm dữ liệu

    Một cụm máy tính thử nghiệm, được gọi là "Sandbox", được hiển thị bên trong trung tâm dữ liệu tại Phòng thí nghiệm Jefferson. Tín dụng: Ảnh Phòng thí nghiệm Jefferson/Bryan Hess

    Các mô hình trong trường hợp này là mạng nơ-ron nhân tạo được đào tạo để giám sát và dự đoán hành vi của cụm máy tính khoa học, nơi mà các luồng số liên tục được xử lý. Mục tiêu là giúp quản trị viên hệ thống nhanh chóng xác định và phản hồi các công việc tính toán gây rắc rối, giảm thời gian chết cho các nhà khoa học xử lý dữ liệu từ các thí nghiệm của họ.

    Gần giống như phong cách trình diễn thời trang, các mô hình học máy (ML) này được đánh giá để xem mô hình nào phù hợp nhất với nhu cầu tập dữ liệu luôn thay đổi của các chương trình thử nghiệm. Nhưng không giống như loạt phim truyền hình thực tế ăn khách "America's Next Top Model" và các phiên bản quốc tế của nó, không mất cả một mùa để chọn ra người chiến thắng. Trong cuộc thi này, một "mô hình vô địch" mới được trao vương miện sau mỗi 24 giờ dựa trên khả năng học hỏi từ dữ liệu mới.

    "Chúng tôi đang cố gắng hiểu các đặc điểm của cụm máy tính mà chúng tôi chưa từng thấy trước đây", Bryan Hess, giám đốc điều hành máy tính khoa học của Phòng thí nghiệm Jefferson và là một nhà điều tra chính—hay có thể nói là thẩm phán—cho biết trong nghiên cứu. "Đó là xem xét trung tâm dữ liệu theo cách toàn diện hơn và trong tương lai, đó sẽ là một số loại mô hình AI hoặc ML".

    Mặc dù các mô hình này không giành được bất kỳ buổi chụp ảnh hào nhoáng nào, nhưng dự án này gần đây đã trở thành tâm điểm chú ý của IEEE Software như một phần của ấn bản đặc biệt dành riêng cho việc học máy trong hoạt động của trung tâm dữ liệu (MLOps).

    Kết quả của nghiên cứu có thể có ý nghĩa to lớn đối với Big Science.

    Nhu cầu

    Các thiết bị khoa học quy mô lớn, chẳng hạn như máy gia tốc hạt, nguồn sáng và kính viễn vọng vô tuyến, là những cơ sở quan trọng của DOE cho phép khám phá khoa học. Tại Phòng thí nghiệm Jefferson, đó là Cơ sở gia tốc chùm electron liên tục (CEBAF), một Cơ sở người dùng của Văn phòng khoa học DOE được cộng đồng toàn cầu gồm hơn 1.650 nhà vật lý hạt nhân tin tưởng.

    Các máy dò thử nghiệm tại Phòng thí nghiệm Jefferson thu thập các dấu hiệu mờ nhạt của các hạt nhỏ có nguồn gốc từ chùm electron CEBAF. Vì CEBAF tạo ra chùm tia 24/7, các tín hiệu đó chuyển thành hàng núi dữ liệu. Thông tin được thu thập theo thứ tự hàng chục petabyte mỗi năm. Đủ để lấp đầy ổ cứng của một máy tính xách tay trung bình khoảng một lần mỗi phút.

    Các tương tác của hạt được xử lý và phân tích tại trung tâm dữ liệu của Phòng thí nghiệm Jefferson bằng các cụm máy tính thông lượng cao với phần mềm được thiết kế riêng cho từng thí nghiệm.

    Trong số các đèn nhấp nháy và cáp bó, các công việc phức tạp đòi hỏi nhiều bộ xử lý (lõi) là chuẩn mực. Bản chất lưu động của các khối lượng công việc này có nghĩa là nhiều bộ phận chuyển động—và nhiều thứ khác có thể xảy ra sai sót.

    Một số công việc tính toán hoặc sự cố phần cứng có thể dẫn đến hành vi cụm không mong muốn, được gọi là "bất thường". Chúng có thể bao gồm phân mảnh bộ nhớ hoặc cam kết đầu vào/đầu ra quá mức, gây ra sự chậm trễ cho các nhà khoa học.

    "Khi các cụm máy tính lớn hơn, các quản trị viên hệ thống sẽ khó theo dõi tất cả các thành phần có thể bị hỏng", Ahmed Hossam Mohammed, một nhà nghiên cứu sau tiến sĩ tại Phòng thí nghiệm Jefferson và là một nhà điều tra của nghiên cứu này cho biết. "Chúng tôi muốn tự động hóa quy trình này bằng một mô hình nhấp nháy đèn đỏ bất cứ khi nào có điều gì đó kỳ lạ xảy ra.

    "Bằng cách đó, người quản trị hệ thống có thể hành động trước khi tình hình trở nên xấu đi hơn nữa."

    Một cách tiếp cận DIDACT-ic

    Để giải quyết những thách thức này, nhóm đã phát triển một hệ thống quản lý dựa trên ML có tên là DIDACT (Digital Data Center Twin). Từ viết tắt này là cách chơi chữ của từ "didactic", mô tả thứ gì đó được thiết kế để dạy. Trong trường hợp này, đó là dạy mạng nơ-ron nhân tạo.

    DIDACT là chương trình cung cấp nguồn lực cho nhân viên phòng thí nghiệm để theo đuổi các dự án có thể đóng góp nhanh chóng và đáng kể vào các vấn đề khoa học và công nghệ quốc gia quan trọng có liên quan đến nhiệm vụ và/hoặc thúc đẩy năng lực khoa học và kỹ thuật cốt lõi của phòng thí nghiệm.

    Hệ thống DIDACT được thiết kế để phát hiện các bất thường và chẩn đoán nguồn gốc của chúng bằng cách sử dụng phương pháp AI gọi là học liên tục.

    Trong quá trình học liên tục, các mô hình ML được đào tạo trên dữ liệu đến theo từng bước, tương tự như quá trình học tập suốt đời mà con người và động vật trải qua. Nhóm DIDACT đào tạo nhiều mô hình theo cách này, mỗi mô hình đại diện cho động lực hệ thống của các công việc tính toán đang hoạt động, sau đó chọn ra người có hiệu suất cao nhất dựa trên dữ liệu của ngày hôm đó.

    Các mô hình là các biến thể của mạng nơ-ron không giám sát được gọi là bộ mã hóa tự động. Một mô hình được trang bị mạng nơ-ron đồ thị (GNN), xem xét mối quan hệ giữa các thành phần.

    "Họ cạnh tranh bằng cách sử dụng dữ liệu đã biết để xác định bên nào có lỗi thấp hơn", Diana McSpadden, nhà khoa học dữ liệu của Phòng thí nghiệm Jefferson và là người dẫn đầu nghiên cứu MLOps cho biết. "Bên nào chiến thắng ngày hôm đó sẽ là 'nhà vô địch hàng ngày'. "

    Phương pháp này một ngày nào đó có thể giúp giảm thời gian chết ở các trung tâm dữ liệu và tối ưu hóa các nguồn lực quan trọng, nghĩa là giảm chi phí và cải thiện khoa học.

    Dưới đây là cách thức hoạt động.

    Người mẫu hàng đầu tiếp theo

    Để đào tạo các mô hình mà không ảnh hưởng đến nhu cầu tính toán hàng ngày, nhóm DIDACT đã phát triển một cụm nền tảng thử nghiệm được gọi là "sandbox". Hãy coi sandbox như một đường băng nơi các mô hình được chấm điểm, trong trường hợp này là dựa trên khả năng đào tạo của chúng.

    Phần mềm DIDACT là một tập hợp các mã nguồn mở và được xây dựng tùy chỉnh được sử dụng để phát triển và quản lý các mô hình ML, giám sát cụm sandbox và ghi dữ liệu. Tất cả các con số đó được trực quan hóa trên bảng điều khiển đồ họa.

    Hệ thống bao gồm ba đường ống cho "tài năng" ML. Một là để phát triển ngoại tuyến, giống như một buổi tổng duyệt. Một là để học liên tục—nơi diễn ra cuộc thi trực tiếp. Mỗi lần một người mẫu hàng đầu mới xuất hiện, nó trở thành người giám sát chính của hành vi cụm trong đường ống thời gian thực—cho đến khi bị người chiến thắng của ngày hôm sau hạ bệ.

    "DIDACT đại diện cho sự kết hợp sáng tạo giữa phần cứng và phần mềm nguồn mở", Hess, người cũng là kiến ​​trúc sư cơ sở hạ tầng cho Trung tâm dữ liệu hiệu suất cao đang được xây dựng tại Phòng thí nghiệm Jefferson hợp tác với Phòng thí nghiệm quốc gia Lawrence Berkeley của DOE, cho biết. "Đó là sự kết hợp của những thứ mà thông thường bạn sẽ không kết hợp lại với nhau, và chúng tôi đã chứng minh rằng nó có thể hoạt động. Nó thực sự tận dụng sức mạnh của khoa học dữ liệu và chuyên môn về hoạt động điện toán của Phòng thí nghiệm Jefferson".

    Trong các nghiên cứu trong tương lai, nhóm DIDACT muốn khám phá một khuôn khổ ML có thể tối ưu hóa mức sử dụng năng lượng của trung tâm dữ liệu, bằng cách giảm lưu lượng nước sử dụng để làm mát hoặc bằng cách giảm tốc độ lõi dựa trên nhu cầu xử lý dữ liệu.

    Hess cho biết: "Mục tiêu luôn là mang lại nhiều lợi ích hơn cho đồng tiền bỏ ra, nhiều khoa học hơn cho đồng đô la".

    Mời các đối tác xem hoạt động của Công ty TNHH Pacific Group.
    FanPage: https://www.facebook.com/Pacific-Group
    YouTube: https://www.youtube.com/@PacificGroupCoLt 

    Zalo
    Hotline