مایکروسافت بهتازگی از یک ابزار هوش مصنوعی آزمایشی به نام VASA-1 رونمایی کرد که در موسسه تحقیقاتی آسیای این کمپانی ساخته شده است. این ابزار قادر است عکس یک فرد یا حتی یک نقاشی پرتره را به ویدیویی بسیار واقعگرایانه تبدیل کند. نمونههای ارائه شده توسط مایکروسافت آنقدر تکاندهنده بودند که به سرعت به یکی از اخبار مهم روز تبدیل شدند.
مایکروسافت چندین نمونه از نتایج این فناوری را در صفحه پروژه خود به اشتراک گذاشته است و نتایج آن به قدری واقعی به نظر میرسند که ممکن است مخاطبان را به اشتباه بیندازد و گمان کنند این ویدیوها واقعی هستند.
تواناییها و محدودیتهای فناوری VASA-1
هرچند این فناوری در نگاه اول بسیار جذاب به نظر میرسد، اما برخی از حرکات لب و سر در ویدیوهای تولید شده ممکن است در بررسی دقیقتر کمی رباتیک یا ناهماهنگ به نظر برسند. با این حال، این پیشرفت نشان میدهد که این فناوری میتواند به راحتی و به سرعت برای تولید دیپفیک (Deepfake) مورد سوءاستفاده قرار گیرد.
محققان مایکروسافت نیز به این مسئله آگاه هستند و برای جلوگیری از سوءاستفاده، تصمیم گرفتهاند که تا زمانی که از استفاده مسئولانه از این فناوری اطمینان پیدا نکردهاند، هیچ دموی آنلاین، API، محصول، جزئیات فنی اضافی یا امکانات مرتبط دیگری را منتشر نکنند. با این حال، هنوز مشخص نیست که آیا آنها قصد دارند تدابیر خاصی را برای جلوگیری از استفاده نادرست، مانند تولید دیپفیکهای مخرب یا انتشار اطلاعات غلط، اجرا کنند یا خیر.
کاربردهای مثبت فناوری VASA-1
علیرغم خطرات احتمالی، محققان معتقدند که فناوری VASA-1 میتواند کاربردهای مثبت و موثری داشته باشد. آنها اظهار داشتند که این فناوری میتواند در چیزهایی مثل موارد زیر مورد استفاده قرار بگیرند:
- تقویت عدالت آموزشی: با ایجاد دسترسی برابر به ابزارهای آموزشی برای همه.
- بهبود دسترسی برای افراد با چالشهای ارتباطی: مثلاً از طریق ایجاد آواتارهایی که به جای آنها صحبت کنند.
- ارائه حمایت عاطفی و درمانی: VASA-1 میتواند در برنامههایی که شخصیتهای هوش مصنوعی را به عنوان همراه و مشاور در اختیار افراد قرار میدهند، نقش داشته باشد.
VASA-1 چگونه کار میکند؟
فناوری VASA-1 با استفاده از یک فرآیند خاص به نام «جداسازی» (Disentanglement) کار میکند. این فرآیند به سیستم اجازه میدهد تا حرکات صورت، چرخش سهبعدی سر و ویژگیهای ظاهری آن را به صورت مستقل از یکدیگر کنترل کند و در نهایت از آنها برای تولید ویدیو استفاده نماید. همین قابلیت است که باعث شده ویدیوهای تولید شده توسط این سیستم بسیار واقعگرایانه به نظر برسند. البته به نظر میآید که برای آموزش این مدل هوش مصنوعی از سیستمهای انیمیشن سهبعدی چهره انسان نیز استفاده شده است، اما جزئیات دقیق در این زمینه عنوان نشده است.
به گفته محققان، این فناوری میتواند ویدیوهایی ایجاد کند که حتی شباهتی به دادههای آموزشی آن ندارند و این دقیقاً تفاوت مهم VASA-1 با برنامههای معمولی هوش مصنوعی است که در فروشگاههای برنامههای موبایلی به وفور یافت میشوند. برای مثال، این سیستم بر روی تصاویر هنری، صداهای آوازی یا گفتارهای غیرانگلیسی آموزش ندیده است، اما اگر چنین ویدیویی درخواست شود، این فناوری میتواند آن را تولید کند.
کیفیت و عملکرد VASA-1
یکی دیگر از ویژگیهای برجسته VASA-1، کارایی در لحظه و بدون معطلی است است. به گفته محققان مایکروسافت، این سیستم قادر است ویدیوهایی با کیفیت نسبتاً بالا (رزولوشن ۵۱۲×۵۱۲ پیکسل) و نرخ فریم بالا تولید کند.
نرخ فریم یا همان FPS (Frames Per Second) به تعداد تصاویری گفته میشود که در یک ثانیه نمایش داده میشوند و نقش مهمی در روانی ویدیوها دارند. VASA-1 میتواند ویدیوهایی با نرخ ۴۵ فریم در ثانیه در حالت آفلاین و ۴۰ فریم در ثانیه در حالت آنلاین تولید کند.
ملاحظات مسئولیتپذیری و خطرات احتمالی
مایکروسافت برای جلوگیری از سوءاستفاده از این فناوری، بخش ویژهای در صفحه پروژه VASA-1 ایجاد کرده است که به نام «ریسکها و ملاحظات مسئولیتپذیری هوش مصنوعی» شناخته میشود. این بخش شامل اطلاعاتی درباره ریسکهای بالقوه و دستورالعملهایی برای استفاده مسئولانه از این فناوری است.
در حالی که این فناوری میتواند در حوزههای مختلف مفید باشد، نگرانیهایی وجود دارد که از آن برای اهداف مخرب، مانند تولید دیپفیکهای غیراخلاقی یا پخش اطلاعات نادرست استفاده شود. با این حال، به نظر میرسد که مایکروسافت قصد دارد با روشهایی تا حدی جلوی به وجود آمدن این مشکل را بگیرد.
تحول در تجربههای دیجیتال
VASA-1 میتواند انقلابی در تجربههای دیجیتال و استفاده از اپلیکیشنها و رابطهای کاربری ایجاد کند. این فناوری نه تنها در تولید محتوای ویدیویی واقعی مفید است، بلکه میتواند به طور گستردهای در زمینههای آموزشی، ارتباطات دیجیتال، سرگرمی و حتی سلامت روان کاربرد داشته باشد.