AI của Google tạo âm thanh khớp với video

Công nghệ V2A (Video-to-Audio) của Google DeepMind được đánh giá là "mảnh ghép còn thiếu để sản xuất phim bằng AI", khi có thể tạo âm thanh khớp với video.

Khả năng tạo video của AI đang được đánh giá cao. Các công cụ như Sora của OpenAI, Dream Machine của Luma AI, Gen-3 Alpha của Runway hay gần đây là Veo của Google nhận được sự chú ý lớn khi có thể tạo các đoạn phim sống động như thật. Tuy nhiên, một trong những điểm yếu của chúng là thiếu âm thanh đi kèm.

Theo TechRadar, V2A của Google khắc phục được nhược điểm trên và là bước tiến lớn, bù đắp phần còn thiếu trong việc tạo những cảnh phim tự động, hỗ trợ nhà làm phim chuyên nghiệp và người dùng nghiệp dư kết hợp nhiều công cụ AI để cho ra đoạn phim theo ý thích của bản thân.

Để làm điều này, công nghệ V2A kết hợp giữa việc phân tích từng pixel của video và lời nhắc văn bản để tạo nhạc nền dựa trên nội dung đang chiếu. Trong loạt video được Google DeepMind chia sẻ, hãng sử dụng công nghệ V2A kết hợp các trình tạo video AI hiện có để cho ra đời những đoạn phim "khớp với ký tự và giai điệu của video".

"Công cụ V2A có thể tạo số lượng bản nhạc không giới hạn cho bất kỳ đầu vào video nào, cho bất kỳ cảnh nào", Google viết trên blog ngày 19/6.

Google cho biết công ty nhận thức về nguy cơ lạm dụng công cụ này cho những mục đích không chính đáng. Do đó, họ coi đây là dự án nghiên cứu và chưa có kế hoạch phát hành. "Trước khi xem xét việc mở quyền truy cập cho công chúng một cách rộng rãi, công nghệ V2A sẽ trải qua quá trình đánh giá và thử nghiệm an toàn nghiêm ngặt", đại diện Google nói.