ویدیوهای واقع گرایانه با هوش مصنوعی VASA-1 مایکروسافت

مایکروسافت به‌تازگی از یک ابزار هوش مصنوعی آزمایشی به نام VASA-1 رونمایی کرد که در موسسه تحقیقاتی آسیای این کمپانی ساخته شده است. این ابزار قادر است عکس یک فرد یا حتی یک نقاشی پرتره را به ویدیویی بسیار واقع‌گرایانه تبدیل کند. نمونه‌های ارائه شده توسط مایکروسافت آن‌قدر تکان‌دهنده بودند که به سرعت به یکی از اخبار مهم روز تبدیل شدند.

مایکروسافت چندین نمونه از نتایج این فناوری را در صفحه پروژه خود به اشتراک گذاشته است و نتایج آن به قدری واقعی به نظر می‌رسند که ممکن است مخاطبان را به اشتباه بیندازد و گمان کنند این ویدیوها واقعی هستند.

توانایی‌ها و محدودیت‌های فناوری VASA-1

هرچند این فناوری در نگاه اول بسیار جذاب به نظر می‌رسد، اما برخی از حرکات لب و سر در ویدیوهای تولید شده ممکن است در بررسی دقیق‌تر کمی رباتیک یا ناهماهنگ به نظر برسند. با این حال، این پیشرفت نشان می‌دهد که این فناوری می‌تواند به راحتی و به سرعت برای تولید دیپ‌فیک (Deepfake) مورد سوءاستفاده قرار گیرد.

برنامه‌هایی برای تشخیص عکس‌های هوش مصنوعی

محققان مایکروسافت نیز به این مسئله آگاه هستند و برای جلوگیری از سوءاستفاده، تصمیم گرفته‌اند که تا زمانی که از استفاده مسئولانه از این فناوری اطمینان پیدا نکرده‌اند، هیچ دموی آنلاین، API، محصول، جزئیات فنی اضافی یا امکانات مرتبط دیگری را منتشر نکنند. با این حال، هنوز مشخص نیست که آیا آن‌ها قصد دارند تدابیر خاصی را برای جلوگیری از استفاده نادرست، مانند تولید دیپ‌فیک‌های مخرب یا انتشار اطلاعات غلط، اجرا کنند یا خیر.

کاربردهای مثبت فناوری VASA-1

علیرغم خطرات احتمالی، محققان معتقدند که فناوری VASA-1 می‌تواند کاربردهای مثبت و موثری داشته باشد. آن‌ها اظهار داشتند که این فناوری می‌تواند در چیزهایی مثل موارد زیر مورد استفاده قرار بگیرند:

تقویت عدالت آموزشی: با ایجاد دسترسی برابر به ابزارهای آموزشی برای همه.
بهبود دسترسی برای افراد با چالش‌های ارتباطی: مثلاً از طریق ایجاد آواتارهایی که به جای آن‌ها صحبت کنند.
ارائه حمایت عاطفی و درمانی: VASA-1 می‌تواند در برنامه‌هایی که شخصیت‌های هوش مصنوعی را به عنوان همراه و مشاور در اختیار افراد قرار می‌دهند، نقش داشته باشد.

VASA-1 چگونه کار می‌کند؟

فناوری VASA-1 با استفاده از یک فرآیند خاص به نام «جداسازی» (Disentanglement) کار می‌کند. این فرآیند به سیستم اجازه می‌دهد تا حرکات صورت، چرخش سه‌بعدی سر و ویژگی‌های ظاهری آن را به صورت مستقل از یکدیگر کنترل کند و در نهایت از آن‌ها برای تولید ویدیو استفاده نماید. همین قابلیت است که باعث شده ویدیوهای تولید شده توسط این سیستم بسیار واقع‌گرایانه به نظر برسند. البته به نظر می‌آید که برای آموزش این مدل هوش مصنوعی از سیستم‌های انیمیشن سه‌بعدی چهره انسان نیز استفاده شده است، اما جزئیات دقیق در این زمینه عنوان نشده است.

تغییر صدا با سرویس های هوش مصنوعی

به گفته محققان، این فناوری می‌تواند ویدیوهایی ایجاد کند که حتی شباهتی به داده‌های آموزشی آن ندارند و این دقیقاً تفاوت مهم VASA-1 با برنامه‌های معمولی هوش مصنوعی است که در فروشگاه‌های برنامه‌های موبایلی به وفور یافت می‌شوند. برای مثال، این سیستم بر روی تصاویر هنری، صداهای آوازی یا گفتارهای غیرانگلیسی آموزش ندیده است، اما اگر چنین ویدیویی درخواست شود، این فناوری می‌تواند آن را تولید کند.

کیفیت و عملکرد VASA-1

یکی دیگر از ویژگی‌های برجسته VASA-1، کارایی در لحظه و بدون معطلی است است. به گفته محققان مایکروسافت، این سیستم قادر است ویدیوهایی با کیفیت نسبتاً بالا (رزولوشن ۵۱۲×۵۱۲ پیکسل) و نرخ فریم بالا تولید کند.

حذف پس زمینه عکس با هوش مصنوعی

نرخ فریم یا همان FPS (Frames Per Second) به تعداد تصاویری گفته می‌شود که در یک ثانیه نمایش داده می‌شوند و نقش مهمی در روانی ویدیوها دارند. VASA-1 می‌تواند ویدیوهایی با نرخ ۴۵ فریم در ثانیه در حالت آفلاین و ۴۰ فریم در ثانیه در حالت آنلاین تولید کند.

ملاحظات مسئولیت‌پذیری و خطرات احتمالی

مایکروسافت برای جلوگیری از سوءاستفاده از این فناوری، بخش ویژه‌ای در صفحه پروژه VASA-1 ایجاد کرده است که به نام «ریسک‌ها و ملاحظات مسئولیت‌پذیری هوش مصنوعی» شناخته می‌شود. این بخش شامل اطلاعاتی درباره ریسک‌های بالقوه و دستورالعمل‌هایی برای استفاده مسئولانه از این فناوری است.

در حالی که این فناوری می‌تواند در حوزه‌های مختلف مفید باشد، نگرانی‌هایی وجود دارد که از آن برای اهداف مخرب، مانند تولید دیپ‌فیک‌های غیراخلاقی یا پخش اطلاعات نادرست استفاده شود. با این حال، به نظر می‌رسد که مایکروسافت قصد دارد با روش‌هایی تا حدی جلوی به وجود آمدن این مشکل را بگیرد.

تحول در تجربه‌های دیجیتال

VASA-1 می‌تواند انقلابی در تجربه‌های دیجیتال و استفاده از اپلیکیشن‌ها و رابط‌های کاربری ایجاد کند. این فناوری نه تنها در تولید محتوای ویدیویی واقعی مفید است، بلکه می‌تواند به طور گسترده‌ای در زمینه‌های آموزشی، ارتباطات دیجیتال، سرگرمی و حتی سلامت روان کاربرد داشته باشد.