گوگل و هوش مصنوعی درگیر انیمیشن‌های واقعیت افزوده هستند

جلوه های جدیدی که در برنامه های مختلف موبایل ، به ویژه در زمینه ویدئو مشاهده می کنیم ، دنیایی از هوش مصنوعی را در پشت خود دارد.

نیلوفر تیر 25, 1402 2 دقیقه زمان کافی برای مطالعه

جلوه های جدیدی که در برنامه های مختلف موبایل ، به ویژه در زمینه ویدئو مشاهده می کنیم ، دنیایی از هوش مصنوعی را در پشت خود دارد.

ماسک ها ، عینک ها ، کلاه ها و سایر انواع محتوای مجازی که در برنامه های مختلف از اینستاگرام گرفته تا استوری های یوتیوب به صورت کاربران اضافه می شوند ، جذابیت و زیبایی خاصی دارند. آیا تا به حال فکر کرده اید که این اثرات چگونه کار می کنند؟ اخیراً بخش هوش مصنوعی گوگل مقاله ای در مورد این اثرات منتشر کرده است که جزئیات آن به بهترین شکل برای علاقمندان توضیح داده شده است.

در مقاله ای طولانی ، مهندسان Mountain View جزئیات فناوری هوش مصنوعی را در هسته برنامه های مختلف ، و همچنین نکاتی در مورد API معروف ARCore آن فاش کردند. به گفته آنها ، API می تواند انواع حالتها را از بازتاب نور محیط تا حالت چهره و حتی بازتاب نور از هر صورت شبیه سازی کند. همه اینها تنها با کمک دوربین و به صورت زنده اتفاق افتاد.

آرتیسام ابلاواتسکی و ایوان گریشنکو ، متخصصان Google در زمینه هوش مصنوعی ، در مقاله خود توضیح می دهند:

یکی از مشکلات اصلی در تولید قابلیت های واقعیت افزوده ، قرار دادن محتوای مجازی در تصاویر دنیای واقعی است. این فرآیند به چندین فناوری به هم پیوسته نیاز دارد که قادر به ردیابی هندسه سطوح در حالتهای بسیار پویا از چهره فردی هستند. شرایطی مانند خنده یا اخم یا پوزخند که هر یک سطح صورت فرد را تغییر می دهد.

بخش اختصاصی واقعیت افزوده گوگل از فناوری TensorFlow Lite استفاده می کند. این فناوری نمونه ای سبک از چارچوب یادگیری ماشین گوگل به نام TensorFlow است که برای برنامه های خاص بهینه شده است. در شرایط مناسب ، آنها از پردازش سخت افزاری بهینه استفاده می کنند که دو شبکه عصبی را ترکیب می کند.

اولین شبکه عصبی در این فناوری آشکارساز است که فعالیت و حالات چهره را روی داده های دوربین پردازش می کند. شبکه دوم مدل مش سه بعدی نامیده می شود که از داده های دریافتی موقعیتی برای پیش بینی هندسه سطوح استفاده می کند.

چرا باید از رویکرد دو مدل استفاده کرد؟ کارشناسان گوگل دو دلیل برای این موضوع توضیح می دهند. استفاده از آن رویکرد نیاز به تقویت مجموعه داده ها با داده های مصنوعی را کاهش می دهد و در نتیجه ، سیستم هوش مصنوعی می تواند از حداکثر ظرفیت خود برای بهبود پیش بینی مختصات مش استفاده کند. هر دو بخش برای قرار دادن دقیق محتوای مجازی در جلوه ها بسیار مهم هستند.

مرحله بعدی اجرای مش در قاب تصویر دوربین است. برای کاهش آن تاخیر و اعوجاج تصویر باید از تکنیک خاصی برای آن مرحله استفاده شود. مش از فریم های ویدئویی کوتاه شده تولید می شود و مختصات را در داده های واقعی پیش بینی می کند. در نتیجه ، موقعیت های سه بعدی و همچنین احتمال چهره ها در تصویر در قالب هایی با موقعیت قابل قبول ارائه شده است.

بهره‌گیری از شبکه‌ی عصبی پردازش موردنیاز برای تولید جلوه‌ها را بهینه می‌کند

بهبود عملکرد و دقت در پروژه های AR نتیجه استفاده بهینه از TensorFlow Lite است ، که نویسندگان این مقاله معتقدند نه تنها کارایی را بهبود می بخشد ، بلکه مصرف انرژی را نیز کاهش می دهد. علاوه بر این ، آنها نتیجه فرایندی هستند که پیش بینی مدل موش را بهینه می کند و در نهایت به تیم ها کمک می کند تا با مشکلات خاص تصویربرداری برخورد کنند. این مشکلات ناشی از حالات چهره یا ضعف دوربین یا شرایط نوری است.

توجه به این نکته ضروری است که مسیرهای جدید پردازش واقعیت افزوده به یک یا دو مدل محدود نمی شود. در عوض ، آنها از تعدادی معماری خاص استفاده می کنند که برای پشتیبانی از انواع دستگاه ها طراحی شده است. به عنوان مثال ، مدلهای سبک تر به حافظه و قدرت پردازشی کمتری نیاز دارند و در نتیجه ، وضوح مورد نیاز برای ورودی آنها کمتر خواهد بود (128 در 128). البته مدل های پیچیده تر تا 256 در 256 رزولوشن را پردازش می کنند.

به گفته نویسندگان مقاله ، سریعترین مدل کامل ماوس در طراحی آنها دارای زمان پردازش 10 میلی ثانیه است که در Google Pixel 3 آزمایش شد. اجرای مدل سبک تر زمان را به 3 میلی ثانیه کاهش داد. آزمایش نمونه در iPhone X فقط کمی کندتر بود: پردازنده گرافیکی سبک تر با سرعت 4 میلی ثانیه در هر فریم پردازش می شود و نمونه سنگین تر و پیچیده تر ، مش کامل را در 14 ثانیه تولید می کند.

میانگین امتیازات ۵ از ۵

از مجموع ۱ رای