Lộ diện loạt clip mới của Sora AI, ai xem xong cũng tự hỏi: “Làm sao có thể tạo ra video thật đến vậy từ vài dòng lệnh văn bản?”

Vào trung tuần tháng 2, sự kiện giới thiệu một mô hình AI mới tên là Sora của OpenAI khiến cộng đồng công nghệ không khỏi ngỡ ngàng. Theo đó, mô hình này cho phép người dùng tạo ra các đoạn video ngắn chỉ từ vài dòng mô tả văn bản, mở ra khả năng sáng tạo nội dung video mà không cần đến trang thiết bị chuyên nghiệp hay kỹ năng dựng phim, bối cảnh phức tạp.

Chất lượng của những video do Sora tạo ra là điểm đáng chú ý nhất, với độ sống động và chân thực cao, ngay cả trong các bối cảnh phức tạp. Dù vẫn còn một vài lỗi nhỏ (đơn cử như hành động, cử chỉ hơi thiếu thực tế của nhân vật chính trong một video), nhưng những lỗi này khó có thể nhận ra nếu không quan sát kỹ. Điều này làm nổi bật tiềm năng của Sora trong việc tạo ra nội dung video chất lượng cao.

Hiện tại, Sora vẫn chưa ra mắt rộng rãi để công chúng có thể thử nghiệm. Thay vàò đó, chỉ một nhóm nhỏ chuyên gia được OpenAI cho phép truy cập công cụ này để đánh giá và kiểm tra khả năng sáng tạo cũng như nhận diện các rủi ro tiềm ẩn. Các demo video được chia sẻ bởi nhóm này thậm chí còn cho thấy chất lượng cao hơn cả những gì được trình bày trong thông báo ra mắt của OpenAI.

Chẳng hạn, tài khoản Twitter có tên Proper mới đây đã đăng tải 1 loạt 7 video mới, cho thấy độ ảo diệu của công cụ AI này ấn tượng tới mức nào.

Video được tạo ra với dòng lệnh: “Một người ngoài hành tinh hòa vào một cách tự nhiên với thành phố New York, phong cách ly kỳ hoang tưởng, định dạng phim 35mm”

Điều gì xảy ra khi bạn gõ dòng lệnh “Một người đàn ông và một người phụ nữ ở độ tuổi 20 đang dùng bữa trong một nhà hàng tương lai được tạo ra từ công nghệ nano và chất lỏng sắt từ”? Đây chính là kết quả.

Được biết, công nghệ cốt lõi của Sora đến từ sự kết hợp giữa kiến trúc diffusion và transformer. Kiến trúc diffusion, đã được chứng minh qua thành công của DALL-E 3 trong việc tạo ảnh từ văn bản, nay được áp dụng cho video, cho phép Sora tạo ra các chuỗi hình ảnh động và chi tiết từ đầu vào ngẫu nhiên.

Phương pháp này giúp dự đoán và biến đổi đầu vào thành nội dung hình ảnh có cấu trúc và rõ ràng. Trong khi đó, kiến trúc transformer với khả năng xử lý dữ liệu tuần tự một cách hiệu quả cũng được tích hợp để xử lý và sinh ra nội dung phù hợp với lời nhắc, dựa trên sự hiểu biết sâu sắc về ngôn ngữ và ngữ cảnh.

Còn đây là video được tạo ra từ dòng lệnh “Bay và tham quan viện bảo tàng có chứa các tác phẩm nghệ thuật đẹp mắt ở mọi phong cách”. Tác giả của đoạn video cũng sử dụng mô hình tạo nhạc suno_ai v3 để tạo ra bài hát tùy chỉnh cho clip này.

Câu lệnh: “Một chú chó chăn cừu Úc nhỏ bé đang vẽ bức tranh về món đồ chơi yêu thích của mình”

Tiếp tục là một video thể hiện độ ảo của Sora với câu lệnh “một góc quay cực cận cảnh về mắt của một người phụ nữ, với mống mắt của cô ấy trông như Trái đất”

Bản thân sức mạnh của Sora cũng khiến Hollywood phải dè chừng. Tyler Perry, một tỷ phú diễn viên kiêm nhà làm phim, cho biết Sora khiến ông tạm dừng kế hoạch mở rộng xưởng phim Tyler Perry Studios ở Atlanta trị giá 800 triệu USD, vì “không cần thiết phải làm điều đó nữa,” ông chia sẻ với tờ The Hollywood Reporter trong một cuộc phỏng vấn tuần trước.

Trong khi đó, ông Perry chỉ ra một số cách Sora có thể ảnh hưởng đến sinh kế của mọi người trong ngành. Ví dụ, nó có thể tạo ra bối cảnh thường được dựng trên phim trường. Ông tiết lộ rằng mình đã sử dụng AI trong hai bộ phim sắp tới, thay vì sử dụng chuyên gia trang điểm để hóa trang lão hóa cho mình, ông chỉ cần sử dụng công nghệ này trên phim trường và hậu kỳ

Khi xem video này, mấy ai nhận ra đây là một video tạo ra bởi AI?

Tương tự, đoạn video quay cảnh một người đàn ông lớn tuổi đang ăn ngấu nghiến một chiếc burger có thể khiến không ít người cảm thấy khó tin đây là sản phẩm của AI

Nhìn chung, những ví dụ được đăng tải ở trên không chỉ cho thấy khả năng sản sinh video của Sora mà còn mở ra câu hỏi về tương lai của sự phân biệt giữa thực tế và nội dung do AI tạo ra. Câu hỏi đặt ra là liệu chúng ta có đến một ngày không thể phân biệt được đâu là hình ảnh thực tế và đâu là sản phẩm của AI, dẫn đến một thế giới giống như trong phim Ma Trận, nơi người dùng không còn nhận biết được thực tại.

  • Tham khảo thêm

    4 đại cao thủ kỳ lạ của Kim Dung: Được coi là đứng đầu thiên hạ nhưng thất bại lãng xẹt