Alibaba Cloud Hadirkan Akses Open Source untuk Model AI Terkini

Alibaba Cloud baru-baru ini mengumumkan langkah signifikan dalam dunia kecerdasan buatan (AI) dengan membuka akses open-source untuk model penghasil konten video. Keputusan ini merupakan bagian dari komitmen perusahaan untuk mendukung komunitas open-source, sekaligus memperluas kemampuan dan aksesibilitas teknologi AI.

Dalam rilisnya, Alibaba Cloud memperkenalkan empat model dari seri Wan2.1, yang merupakan versi terbaru dari model dasar video Tongyi Wanxiang (Wan). Keempat model ini adalah T2V-14B, T2V-1.3B, I2V-14B-720P, dan I2V-14B-480P. Model-model ini dirancang untuk menghasilkan konten video dan gambar dengan kualitas tinggi, berdasarkan input teks maupun gambar. Perusahaan menyatakan bahwa keunggulan model-model ini terletak pada kemampuannya untuk menghasilkan visual yang lebih realistis dan menangani gerakan kompleks secara akurat.

Akses ke model-model ini dapat dilakukan melalui komunitas AI Alibaba Cloud yang dikenal sebagai Model Scope, serta platform kolaboratif AI lainnya seperti Hugging Face. Hal ini memberikan kesempatan bagi akademisi, peneliti, dan institusi komersial di seluruh dunia untuk memanfaatkan teknologi ini. Ketersediaan model open-source ini diharapkan dapat meningkatkan kolaborasi dan inovasi di bidang pengembangan konten multimedia.

Seri Wan2.1 ini pertama kali diluncurkan pada awal tahun ini dan menjadikannya sebagai model penghasil konten video pertama yang mendukung efek teks dalam bahasa Mandarin dan Inggris. Kemampuannya dalam menghasilkan visual yang realistis juga membantu meningkatkan ketajaman pixel dan mematuhi prinsip fisika, sehingga memberikan hasil yang lebih wajar dalam pergerakan objek.

Beberapa data terkait performa model ini antara lain:

  • Skor VBench: Seri Wan2.1 mencatat skor keseluruhan sebesar 86,22% pada VBench leaderboard, yang merupakan tolok ukur komprehensif untuk model pembuat konten video.
  • Keunggulan Dimensi: Model ini unggul dalam sejumlah dimensi, termasuk dinamika gerakan, hubungan spasial, warna, dan interaksi multi-objek.

Sumber daya komputasi yang besar dan data pelatihan berkualitas tinggi adalah kunci dalam melatih model-model ini. Dengan membuka akses ke model open-source, Alibaba Cloud bertujuan untuk memberi peluang bagi lebih banyak bisnis untuk memanfaatkan AI dalam menciptakan konten visual berkualitas tinggi dengan biaya yang lebih terjangkau.

Model T2V-14B, misalnya, lebih cocok untuk menghasilkan visual berkualitas tinggi dengan dinamika gerakan yang dinamis. Di sisi lain, T2V-1.3B dirancang untuk memberikan keseimbangan antara kualitas hasil dan efisiensi daya komputasi, membuatnya ideal untuk pengembangan lanjutan serta penelitian akademis. Sebagai gambaran, pengguna dapat menggunakan model T2V-1.3B dengan laptop standar untuk membuat video berdurasi 5 detik dengan resolusi 480p dalam waktu sekitar 4 menit.

Selain fitur konversi teks ke video (text-to-video), model I2V-14B-720P dan I2V-14B-480P juga menawarkan kemampuan konversi gambar ke video (image-to-video). Dengan memasukkan satu gambar beserta deskripsi teks singkat, pengguna dapat menghasilkan konten video yang dinamis, memperluas kemungkinan kreativitas dalam pembuatan konten.

Keputusan Alibaba Cloud untuk membuka akses ke model AI berskala besar ini menjadikannya salah satu pelopor di industri teknologi. Sebelumnya, perusahaan ini merilis model open-source lain, yaitu Qwen (Qwen-7B) pada Agustus 2023. Model Qwen telah konsisten menduduki peringkat teratas dalam Hugging Face Open LLM Leaderboards dan dianggap sebanding dengan model AI global terkemuka.

Lebih dari 100.000 model turunan dari grup model Qwen telah dikembangkan di Hugging Face, menjadikannya sebagai salah satu ekosistem model AI terbesar di dunia. Dengan langkah baru ini, Alibaba Cloud tidak hanya memperkuat posisi mereka di pasar, tetapi juga berkontribusi pada pengembangan ekosistem AI yang lebih luas dan inklusif.

Berita Terkait

Back to top button