Ang VASA-1 ng Microsoft ay maaaring makabuo ng makatotohanang mga mukha ng pakikipag-usap mula sa isang larawan lamang.

Sa isang kamakailang puting papel, ipinakilala ng Microsoft ang isang bagong modelo ng AI na gumagawa ng nagsasalitang ulo na mukhang makatotohanan at nabubuo sa pamamagitan lamang ng pag-upload ng isang still na litrato at isang sample ng boses.

Ang bagong modelo ay pinangalanang VASA-1, at nangangailangan lamang ito ng isang portrait na istilong larawan at isang audio file ng boses at pinagsama ang mga ito upang makagawa ng maikling video ng isang nagsasalitang ulo na may mga ekspresyon sa mukha, pag-sync ng labi, at paggalaw ng ulo. Ang ginawang ulo ay maaari pang kumanta ng mga kanta, at iyon sa boses na na-upload sa panahon ng paglikha.

Ang Microsoft VASA-1 ay isang pambihirang tagumpay para sa animation

Ayon sa Microsoft, ang bagong modelo ng AI ay nasa yugto pa rin ng pananaliksik, at wala pa ring planong ilabas ito sa pangkalahatang publiko, at tanging ang mga mananaliksik ng Microsoft ang may access dito. Gayunpaman, ang kumpanya ay nagbahagi ng kaunting mga sample ng mga demonstrasyon, na nagpapakita ng nakamamanghang realismo at paggalaw ng labi na tila masyadong parang buhay.

Ipinapakita ng demo ang mga taong mukhang totoo, na parang nakaupo sila sa harap ng camera at kinukunan ng video. Ang mga galaw ng mga ulo ay makatotohanan at mukhang natural, at ang galaw ng labi upang tumugma sa audio ay medyo namumukod-tangi, sa kondisyon na tila napakakaunting mapapansin dahil sa hindi pagiging natural. Ang pangkalahatang pag-synchronize ng bibig ay kahanga-hanga.

Sinabi ng Microsoft na ang modelo ay binuo upang bigyang-buhay ang mga virtual na character, at inaangkin nito na ang lahat ng mga tao na ipinapakita sa demo ay gawa ng tao, tulad ng sinabi nila, ang mga modelo ay nabuo mula sa DALL-E, na siyang generator ng imahe ng OpenAI. Kaya sa palagay namin kung maaari nitong i-animate ang isang modelong nabuo ng AI, kung gayon ay malinaw na may higit pang potensyal dito na i-animate ang mga larawan ng sinumang totoong tao, na dapat ay mas makatotohanan at mas madaling pangasiwaan ito.

Mga kaso ng paggamit ng Vasa-1 at ang potensyal na maling paggamit nito

Kung titingnan natin ang potensyal ng VASA-1 para sa praktikal na paggamit, pagkatapos ay sa baseline, maaari itong magamit upang i-animate ang mga character sa mga animated na pelikula, na magbibigay sa mga character ng mas makatotohanang pakiramdam na may natural na mga ekspresyon ng mukha at paggalaw ng ulo. Ang isa pang paggamit ay maaaring sa mga video game, sa parehong dahilan, isipin ang Grand Theft Auto at ang mga katulad nito. Sa hinaharap, maaari itong gamitin para sa mga hyper realistic na AI na nabuong mga pelikula o serye kung saan ang mga character ay maaaring mabuo mula sa mga generator ng imahe at maaaring i-animate ng VASA-1, at maaaring hindi maramdaman ng madla na ang mga karakter ay hindi mga tao.

Kasama ng malikhaing paggamit ng tool, maaari din itong magamit upang lumikha ng nilalaman para sa mga malisyosong layunin. Ang potensyal na maling paggamit ng VASA-1 ay maaaring ang paggamit nito para sa mga deepfakes, dahil gagawin nitong madali para sa sinumang sangkot sa mga deepfake na paglikha na palakihin ang kanilang masasamang taktika at makabuo ng mas makatotohanang maling paggabay na nilalaman. Tandaan ang robocall scandal na kinasasangkutan ng boses ni Biden para pigilan ang mga tao na bumoto bago ang isang primaryang halalan? Ngayon ay maaari itong maging isang robovideo pagkatapos ng robocall, at iyon ay may napaka-makatotohanang mga ekspresyon ng tao.

Ang potensyal na panganib ng maling paggamit ay maaaring ang dahilan kung bakit nilimitahan ng Microsoft ang pagsubok nito sa mga mananaliksik lamang nito. Ayon sa mga mananaliksik ng Microsoft, ang tool ay maaaring gamitin para sa paglikha ng mapanlinlang at mapanlinlang na nilalaman para sa pagpapanggap bilang mga tao, tulad ng ilang iba pang mga tool, ngunit ang mga ito ay naglalayong para sa positibong paggamit ng mga application. Ang Nvidia at Runway AI ay naglabas din ng kanilang mga modelo para sa parehong function, ngunit ang VASA-1 ay tila mas makatotohanan at isang promising na kandidato.

Ang papel ng pananaliksik ay makikita dito, at ang tala ng Microsoft dito.

Pinagmulan: https://www.cryptopolitan.com/microsofts-vasa-1-can-generate-talking-faces/