AI chuyển văn bản thành âm thanh tiết kiệm năng lượng

AI chuyển văn bản thành âm thanh tiết kiệm năng lượng

    AI chuyển văn bản thành âm thanh tiết kiệm năng lượng
    bởi Đại học Surrey

    Energy-efficient text-to-audio AI


    Tổng quan về thiết kế AudioLDM để tạo văn bản thành âm thanh (trái) và thao tác âm thanh hướng dẫn bằng văn bản (phải). Trong quá trình đào tạo, các mô hình khuếch tán tiềm ẩn (LDM) được điều chỉnh bằng cách nhúng âm thanh và được đào tạo trong một không gian liên tục do VAE học được. Quá trình lấy mẫu sử dụng nhúng văn bản làm điều kiện. Với các LDM đã được đào tạo trước, quá trình chuyển đổi phong cách và âm thanh không có cảnh quay được thực hiện theo quy trình ngược lại. Khối Khuếch tán Chuyển tiếp biểu thị quá trình làm hỏng dữ liệu bằng nhiễu gaussian (xem Phương trình 2). Ảnh: arXiv (2023). DOI: 10.48550/arxiv.2301.12503


    Các hệ thống trí tuệ nhân tạo (AI) sáng tạo sẽ truyền cảm hứng cho sự bùng nổ sáng tạo trong ngành công nghiệp âm nhạc và hơn thế nữa, theo các nhà nghiên cứu của Đại học Surrey, những người đang mời công chúng thử nghiệm mô hình chuyển văn bản thành âm thanh mới của họ.

    AudioLDM là một hệ thống dựa trên AI mới của Surrey cho phép người dùng gửi lời nhắc văn bản, sau đó được sử dụng để tạo một đoạn âm thanh tương ứng. Hệ thống có thể xử lý lời nhắc và phân phối clip sử dụng ít sức mạnh tính toán hơn so với các hệ thống AI hiện tại mà không ảnh hưởng đến chất lượng âm thanh hoặc khả năng điều khiển clip của người dùng.

    Công chúng có thể dùng thử AudioLDM bằng cách truy cập vào không gian Ôm mặt của nó. Mã của họ cũng là nguồn mở trên GitHub với hơn 1000 sao.

    Hệ thống như vậy có thể được các nhà thiết kế âm thanh sử dụng trong nhiều ứng dụng khác nhau, chẳng hạn như làm phim, thiết kế trò chơi, nghệ thuật kỹ thuật số, thực tế ảo, metaverse và trợ lý kỹ thuật số cho người khiếm thị.

    Haohe Liu, trưởng dự án từ Đại học Surrey, cho biết: "AI sáng tạo có tiềm năng biến đổi mọi lĩnh vực, bao gồm cả âm nhạc và sáng tạo âm thanh."

    "Với AudioLDM, chúng tôi cho thấy rằng bất kỳ ai cũng có thể tạo các mẫu chất lượng cao và độc đáo trong vài giây với rất ít sức mạnh tính toán. Mặc dù có một số lo ngại chính đáng về công nghệ, nhưng chắc chắn rằng AI sẽ mở ra cơ hội cho nhiều người trong các ngành công nghiệp sáng tạo này và truyền cảm hứng cho sự bùng nổ của những ý tưởng mới."

    Chơi
    Đầu ra âm thanh cho "Sóc huýt sáo khi nhai kẹo cao su." Tín dụng: AudioLDM
    Mô hình nguồn mở của Surrey được xây dựng theo cách bán giám sát với một phương pháp gọi là Đào tạo trước ngôn ngữ-âm thanh tương phản (CLAP). Sử dụng phương pháp CLAP, AudioLDM có thể được đào tạo trên một lượng lớn dữ liệu âm thanh đa dạng mà không cần ghi nhãn văn bản, cải thiện đáng kể dung lượng mô hình.

    Wenwu Wang, giáo sư về xử lý tín hiệu và học máy tại Đại học Surrey, cho biết: "Điều khiến AudioLDM trở nên đặc biệt không chỉ là nó có thể tạo các đoạn âm thanh từ lời nhắc văn bản mà còn có thể tạo âm thanh mới dựa trên cùng một văn bản mà không cần yêu cầu đào tạo lại."

    "Điều này giúp tiết kiệm thời gian và nguồn lực vì nó không yêu cầu đào tạo bổ sung. Khi trí tuệ nhân tạo tổng quát trở thành một phần thiết yếu trong cuộc sống hàng ngày của chúng ta, điều quan trọng là chúng ta phải bắt đầu suy nghĩ về năng lượng cần thiết để cung cấp năng lượng cho các máy tính chạy các công nghệ này. AudioLDM là một bước đi đúng hướng."

    Cộng đồng người dùng đã tạo nhiều clip nhạc bằng AudioLDM ở các thể loại khác nhau.

    AudioLDM là một dự án trình diễn nghiên cứu và dựa vào miễn trừ ngoại lệ bản quyền hiện tại của Vương quốc Anh để khai thác dữ liệu cho nghiên cứu phi thương mại. Bài báo được xuất bản trên máy chủ in sẵn arXiv.

    Zalo
    Hotline