Nguồn: Heart of the Machine
Vào ngày làm việc thứ ba trong bản cập nhật kéo dài 12 ngày của OpenAI, bản phát hành lớn cuối cùng đã ra mắt!
Đúng như mọi người mong đợi ở khu vực bình luận trước khi phát sóng trực tiếp, phiên bản chính thức của mô hình lớn tạo video Sora cuối cùng đã xuất hiện!
Tổng cộng đã gần 10 tháng trôi qua kể từ khi Sora được ra mắt vào ngày 16 tháng 2 năm nay.
Giờ đây, cư dân mạng cuối cùng cũng có thể trải nghiệm khả năng tạo video mạnh mẽ của Sora!
Đồng thời, OpenAI đã phát triển phiên bản mới của Sora - Sora Turbo , nhanh hơn mô hình xem trước của tháng 2 nhanh hơn nhiều. Bản phát hành sẽ có sẵn dưới dạng sản phẩm độc lập cho người dùng ChatGPT Plus và Pro ngay hôm nay.
Theo chương trình phát sóng trực tiếp ngày hôm nay, người dùng Sora có thể tạo độ phân giải 1080p, dài nhất là 20 video thứ hai, màn ảnh rộng, dọc hoặc vuông. Và người dùng có thể sử dụng tài nguyên để mở rộng, phối lại và hợp nhất hoặc tạo nội dung hoàn toàn mới dựa trên văn bản. OpenAI đã phát triển một giao diện mới giúp nhắc nhở Sora bằng văn bản, hình ảnh và video dễ dàng hơn, đồng thời các công cụ tạo kịch bản phân cảnh cho phép người dùng chỉ định chính xác đầu vào cho từng khung hình.
Trước tiên, chúng ta có thể xem một số ví dụ về video được tạo:
Mẹo: Ống kính có sương mù và màu sắc tương phản. Cảm giác được ghi lại là chất lượng ống kính có khả năng hiển thị thấp, mang lại cảm giác như vậy. a Một cảm giác tức thời và hỗn loạn. Cảnh phim cho thấy những thước phim run rẩy dưới góc nhìn của một thủy thủ trên con tàu cướp biển thế kỷ 17. Đường chân trời rung chuyển dữ dội khi sóng vỗ vào thân tàu gỗ, khiến việc phân biệt chi tiết trở nên khó khăn. Đột nhiên, một con quái vật biển khổng lồ đột nhiên xuất hiện từ vùng biển hỗn loạn. Những chiếc xúc tu khổng lồ, trơn trượt của nó duỗi ra một cách nguy hiểm, những phần phụ nhầy nhụa của nó quấn quanh con tàu với một lực khủng khiếp. Khung cảnh thay đổi đáng kể khi các thủy thủ hoảng loạn tranh giành để đối đầu với sinh vật biển đáng sợ. Bầu không khí căng thẳng và có thể nghe thấy tiếng rên rỉ của tàu thuyền cũng như tiếng gầm của biển giữa sự hỗn loạn.
Mẹo: Trung tâm Rockefeller có rất nhiều chú chó tha mồi vàng! Nhìn đâu cũng thấy chú chó tha mồi vàng. Đó là xứ sở thần tiên mùa đông của New York vào ban đêm, hoàn chỉnh với cây thông Giáng sinh khổng lồ. Taxi và các yếu tố khác của New York có thể được nhìn thấy ở hậu cảnh
Sam Altman nói rằng điều khiến anh phấn khích nhất là cảm giác dễ dàng đồng sáng tạo với người khác, cảm giác như một điều mới mẻ thú vị. Bạn có thể coi Sora là phiên bản video của GPT-1.
Nhà khoa học nghiên cứu OpenAI Noam Brown cho rằng Sora là minh chứng trực quan nhất về sức mạnh về quy mô.
Về việc Sora ra mắt, một số cư dân mạng cho rằng đây là Giáng sinh tuyệt vời nhất từ trước đến nay Gift cũng cho biết Sora sẽ là người thay đổi cuộc chơi.
Bằng văn bản, hình ảnh hoặc video < mạnh mẽ >Hãy để trí tưởng tượng của bạn trở nên sống động
Với sự phấn khích, trái tim của cỗ máy cũng muốn thử Sora! Tuy nhiên, có quá nhiều cư dân mạng muốn trải nghiệm nhưng họ không thể đăng nhập:
< /p>
Địa chỉ trải nghiệm: https://sora.com/onboarding
Đầu tiên hãy cho độc giả thấy những khả năng được phát hành chính thức của Sora.
Sử dụng Remix để thay thế, xóa hoặc hình dung lại các thành phần trong video của bạn
Mở cửa thư viện
< / p>
Thay cửa bằng cửa kiểu Pháp
Cảnh ngoài cửa được thay bằng phong cảnh mặt trăng
Cắt lại: tìm và tách khung hình đẹp nhất rồi đi theo một trong hai hướng Mở rộng chúng để hoàn thành cảnh
Bảng phân cảnh: Sắp xếp và chỉnh sửa các chuỗi video độc đáo trên dòng thời gian
Video Pre-114 Cảnh trong khung hình là "một phong cảnh màu đỏ rộng lớn với một con tàu vũ trụ đang neo đậu ở phía xa."
p>
Sau đó, bạn có thể thay đổi khung cảnh của khung 114 -324 của video có nội dung: "Từ bên trong tàu vũ trụ nhìn ra, một chàng cao bồi không gian đứng ở giữa màn hình."
Cuối cùng, nội dung video có thể được mô tả là "cận cảnh đôi mắt của một phi hành gia được che bởi một chiếc mặt nạ được làm bằng vải dệt kim. 》
Vòng lặp: Sử dụng vòng lặp. Cắt và tạo các video lặp lại liền mạch
Trộn: Hợp nhất hai video thành một clip liền mạch
Cài đặt trước kiểu : Sử dụng "Cài đặt trước" để tạo và chia sẻ những phong cách truyền cảm hứng cho trí tưởng tượng của bạn
Những video tuyệt vời khác do Sora tạo ra cũng đòi hỏi trí tưởng tượng của cư dân mạng để tạo ra.
Thẻ hệ thống phiên bản chính thức của Sora
Vào tháng 2 năm nay, khi Sora lần đầu tiên được phát hành, OpenAI đã công bố về Kỹ thuật báo cáo của Sora.
OpenAI tin rằng việc mở rộng các mô hình tạo video là một con đường đầy hứa hẹn để xây dựng các trình mô phỏng đa năng của thế giới thực.
Với việc phát hành Sora chính thức ngày hôm nay, OpenAI cũng đã phát hành Thẻ hệ thống của Sora. Các nhà phát triển quan tâm có thể tìm hiểu chi tiết kỹ thuật.
Địa chỉ: https://openai.com/index/sora-system-card/
Sora là OpenAI Một mô hình tạo video được thiết kế để lấy văn bản, hình ảnh và video đầu vào và tạo video mới làm đầu ra. Người dùng có thể tạo video ở nhiều định dạng khác nhau, độ phân giải lên tới 1080p (tối đa 20 giây).
Sora được xây dựng trên mô hình DALL・E và GPT và nhằm mục đích cung cấp cho mọi người các công cụ để thể hiện sự sáng tạo.
Sora là một mô hình phổ biến tạo ra một video mới bắt đầu từ một video cơ bản trông giống như tiếng ồn tĩnh, dần dần chuyển đổi video đó bằng cách loại bỏ tiếng ồn theo nhiều bước. Bằng cách cung cấp cho mô hình nhiều dự đoán khung hình cùng một lúc, Sora giải quyết vấn đề đầy thách thức là đảm bảo rằng đối tượng của khung hình vẫn nguyên vẹn ngay cả khi nó tạm thời rời khỏi trường xem. Tương tự như mô hình GPT, Sora sử dụng kiến trúc máy biến áp để phát huy hiệu suất khả năng mở rộng vượt trội.
Sora sử dụng công nghệ ghi chú lại trong DALL・E 3, bao gồm việc tạo chú thích mang tính mô tả cao cho dữ liệu đào tạo trực quan. Kết quả là Sora có thể làm theo hướng dẫn bằng văn bản của người dùng trong video được tạo một cách trung thực hơn.
Ngoài khả năng tạo video chỉ dựa trên hướng dẫn bằng văn bản, mô hình còn có thể lấy hình ảnh tĩnh hiện có và tạo video từ chúng, tạo hoạt ảnh cho nội dung hình ảnh một cách chính xác và chú ý đến từng chi tiết. Mô hình này cũng có thể lấy video hiện có và mở rộng video đó hoặc điền vào các khung hình còn thiếu. Sora là nền tảng cho các mô hình có thể hiểu và mô phỏng thế giới thực, và OpenAI tin rằng Sora sẽ là cột mốc quan trọng trên con đường hướng tới AGI.
Về mặt dữ liệu, như OpenAI đã mô tả trong báo cáo kỹ thuật tháng 2, Sora lấy cảm hứng từ các mô hình ngôn ngữ lớn có khả năng tổng quát thông qua đào tạo về dữ liệu trên quy mô Internet. LLM đã có thể thiết lập một mô hình mới, một phần nhờ vào những cách sử dụng token sáng tạo. Các nhà nghiên cứu đã khéo léo thống nhất nhiều phương thức của văn bản—mật mã, toán học và các ngôn ngữ tự nhiên khác nhau.
Trong Sora, OpenAI xem xét cách các mô hình tạo ra dữ liệu trực quan có thể kế thừa những lợi ích của phương pháp này. Các mô hình ngôn ngữ lớn có mã thông báo văn bản, trong khi Sora có các bản vá trực quan. Nghiên cứu trước đây đã chứng minh rằng các bản vá là sự thể hiện hiệu quả của các mô hình dữ liệu trực quan. OpenAI phát hiện ra rằng các bản vá là đại diện hiệu quả và có thể mở rộng cho các mô hình đào tạo tạo ra nhiều loại video và hình ảnh khác nhau.
Ở cấp độ cao hơn, OpenAI chuyển đổi video thành các bản vá bằng cách trước tiên nén chúng vào không gian tiềm ẩn có chiều thấp hơn, sau đó phân tách phần trình bày thành các bản vá không gian thời gian.
Sora được đào tạo về nhiều loại tập dữ liệu, bao gồm dữ liệu có sẵn công khai, dữ liệu độc quyền thu được thông qua các đối tác và tập dữ liệu tùy chỉnh được phát triển nội bộ:
Dữ liệu có sẵn công khai. Dữ liệu chủ yếu được thu thập từ bộ dữ liệu máy học và trình thu thập dữ liệu web theo tiêu chuẩn ngành.
Dữ liệu độc quyền từ các đối tác dữ liệu. OpenAI hình thành quan hệ đối tác để truy cập dữ liệu không công khai Ví dụ: Pond5 hợp tác với Shutterstock để xây dựng và cung cấp hình ảnh do AI tạo ra. OpenAI cũng ủy quyền tạo ra các bộ dữ liệu phù hợp với nhu cầu của mình.
Dữ liệu nhân tạo. Phản hồi từ các huấn luyện viên AI, đội đỏ và nhân viên.
Để biết thêm chi tiết, độc giả có thể xem phần giới thiệu thẻ hệ thống.
Lợi ích về giá
Tất nhiên, với việc phát hành chính thức Sora, OpenAI cũng đã công bố giá sử dụng. Có vẻ như nó không hề rẻ:
$20 mỗi tháng cho người dùng ChatGPT Plus Video các lợi ích thế hệ có thể được hưởng bao gồm:
Với 200 USD một tháng, người dùng ChatGPT Pro có thể thưởng thức video lợi ích tạo ra bao gồm:
Tối đa 500 video ưu tiên (10.000 điểm)
-
Không giới hạn thư giãn Video
Độ phân giải lên tới 1080p, thời lượng 20 giây và có thể tạo đồng thời 5 video
Tải xuống không có hình mờ
p>
Sau tất cả, tôi đã mong chờ nó bấy lâu nay. Bạn có định vội vàng không?