دانش آی آر

ماینینگ باکس کاشی سنتی

وانیل کوکی ربات فنآوری اطلاعات افرنگ

مجتمع آموزشی شایگان

هواوي نمي‌تواند از کارت حافظه ميکرو اس دي در گوشي‌هايش استفاده کند

tsmc به همکاري خود با هواوي ادامه مي‌دهد

انواع خدمات ملکي و ثبت رايگان و نامحدود آگهي در آقاي املاک

استفاده از ويروس عفوني‌کننده ميمون براي توليد واکسن hiv

نسخه سفارشي از هوندا سيويک type r مخصوص رالي ساخته شد

برنده جايزه 12 هزار دلاري سري دوم مسابقه lg challenger iran مشخص شد

زوم‌اپ؛ walldrobe wallpapers: حد اعلاي تصاوير پس‌زمينه موبايل

امکان پرداخت قبض‌هاي at&t ازطريق ارز ديجيتال فراهم شد

گجت پوشيدني آمازون احساسات کاربر را از روي صداي وي تشخيص مي‌‌دهد

رولزرويس wraith eagle viii معرفي شد

دانستني هاي جالب در مورد کوچک‌ترين کشور جنوب شرقي آسيا

جعبه دنده zf، بهترين محصول در بازار جهاني است؟

هواوي نشان تجاري سيستم عامل هانگ‌منگ را ثبت کرد

دانشمندان به چگونگي ويرايش خاطرات نزديک‌تر شده‌اند

اسپيس ايکس 60 ماهواره از پروژه اينترنت جهاني را به فضا ارسال کرد

خودروي مفهومي بي‌ ام‌ و گارميش کلاسيک بازتوليد شد

خودروسازان فعلا حق پيش فروش ندارند

شناسايي 18 سياره شبه‌زمين با يک الگوريتم جديد

اين "برج توپي" با کمک نيروي اصطکاک ساخته شده است!

ساخت ايستگاه تاکسي‌هاي پرنده در سنگاپور تا پايان سال
گوگل و هوش مصنوعي درگير انيميشن‌هاي واقعيت افزوده هستند
تعداد بازدید : 12

ماسک‌‌ها، عینک‌ها، کلاه‌ها و انواع دیگر محتوای مجازی که در اپلیکیشن‌های مختلف از اینستاگرام گرفته تا یوتیوب استوریز روی چهره‌های کاربران اضافه می‌شوند، جذابیت و زیبایی خاصی دارند. تابه‌حال از خود پرسیده‌اید این جلوه‌ها چگونه اجرا می‌شوند؟ بخش هوش مصنوعی گوگل به‌تازگی مقاله‌ای درباره‌ی همین جلوه‌ها منتشر کرده که جزئیات آن را به بهترین نحو برای علاقه‌مندان توضیح می‌دهد.

مهندسان شاغل در مانتین ویو در مقاله‌ای بلند، جزئیات فناوری هوش مصنوعی در هسته‌ی استوری اپلیکیشن‌های مختلف را فاش و نکاتی نیز درباره‌ی api مشهور آن arcore ذکر کردند. طبق ادعای آن‌ها، api مذکور می‌تواند انواع حالات از بازتاب نور محیط تا حالت چهره و حتی بازتاب نور از هر چهره را شبیه‌سازی کند. همه‌ی آن موارد هم فقط به کمک دوربین و به‌‌طور زنده اتفاق می‌افتند.

آرتیسام آبلاواتسکی و ایوان گریشنکو، متخصصان گوگل در بخش هوش مصنوعی، در مقاله‌ی خود توضیح می‌دهند:

یکی از مشکلات اصلی در تولید قابلیت‌های واقعیت افزوده‌، قراردادن محتوای مجازی در تصاویر دنیای واقعی است. آن فرایند به چندین فناوری به‌هم‌پیوسته نیاز دارد که توانایی ردگیری هندسه‌ی سطوح در حالت‌های بسیار پویای چهره‌ی افراد را داشته باشند؛ حالت‌هایی همچون خنده یا اخم یا پوزخند که هرکدام تغییراتی در سطوح چهره‌ی افراد ایجاد می‌کنند.

چهره سه بعدی

بخش اختصاصی گوگل در حوزه‌ی واقعیت افزوده، از فناوری tensorflow lite استفاده می‌کند. آن فناوری نمونه‌ای سبک از فریم‌ورک یادگیری ماشین گوگل به‌نام tensorflow محسوب می‌شود که برای کاربردهای خاص بهینه‌سازی شد. در موقعیت‌های مناسب، آن‌ها از پردازش بهینه‌سازی‌شده‌ی سخت‌افزارها بهره می‌برند که دو شبکه‌ی عصبی را باهم ترکیب می‌کند.

اولین شبکه‌ی عصبی در فناوری اشاره‌شده تشخیص‌دهنده است که روی داده‌های دوربین فعالیت و موقعیت‌های چهره را پردازش می‌کند. شبکه‌ی دوم مدل مِش سه‌بعدی نام دارد که از داده‌های دریافت‌شده‌ی موقعیتی، برای پیش‌بینی هندسه‌ی سطوح بهره می‌برد.

چرا از رویکردی با دو مدل استفاده می‌شود؟ متخصصان گوگل دو دلیل را برای آن توضیح می‌دهند. استفاده از آن رویکرد نیاز به تقویت دیتاسِت با داده‌های مصنوعی را کاهش می‌‌دهد و درنتیجه، سیستم هوش مصنوعی می‌تواند حداکثر ظرفیت خود را برای بهبود پیش‌بینی مختصات مِش به‌کار گیرد. هر دو بخش، برای جانمایی دقیق محتوای مجازی در جلوه‌ها حیاتی هستند.

مرحله‌ی بعدی، مستلزم اجرای شبکه‌ی مِش در یک فریم تصویر دوربین است. تکنیک خاصی باید برای آن مرحله استفاده شود تا تأخیر در تصویر و اختلال آن را کاهش دهد. مِش مدنظر از فریم‌های ویدئویی بریده‌شده تولید می‌شود و مختصات را در داده‌های واقعی پیش‌بینی می‌کند. درنتیجه، موقعیت‌های سه‌بعدی و نیز احتمالات صورت‌های موجود در تصویر در فریم‌هایی با جانمایی مقبول ارائه می‌شود.

هوش مصنوعی واقعیت افزوده

بهره‌گیری از شبکه‌ی عصبی پردازش موردنیاز برای تولید جلوه‌ها را بهینه می‌کند

بهبود کارایی و دقت در پروژه‌های ar، نتیجه‌ی بهره‌گیری بهینه از tensorflow lite هستند که نویسندگان مقاله‌ی مذکور اعتقاد دارند درکنار بهبود کارایی، به کاهش مصرف انرژی هم منجر می‌شود. به‌علاوه، آن‌ها نتیجه‌ی روندی هستند که پیش‌بینی مدل مِش‌ها را بهینه‌سازی و درنهایت، به تیم‌ها در مقابله با مشکلات خاص تصویرسازی کمک می‌کند. این مشکلات از حالت‌های چهره‌ها یا وضعیت نامناسب دوربین یا نور ایجاد می‌شوند.

نکته‌ی درخورتوجه آن است که مسیرهای جدید پردازش واقعیت افزوده، فقط به یک یا دو مدل بسنده نمی‌کنند؛ درعوض، از تعدادی معماری خاص استفاده می‌کنند که با هدف پشتیبانی از دستگاه‌های متنوع طراحی شده‌اند. به‌عنوان مثال، نمونه‌های سبک‌تر به حافظه و قدرت پردازش کمتری نیاز دارند و درنتیجه، رزولوشن موردنیاز برای ورودی آن‌ها نیز کمتر (128 در 128) خواهد بود. البته، مدل‌های پیچیده‌تر تا رزولوشن 256 در 256 را پردازش می‌کنند.

طبق تحقیقات نویسندگان مقاله، سریع‌ترین مدل مِش کامل در طرح آن‌ها، زمان پردازشی برابر با 10 میلی‌ثانیه دارد که روی گوشی گوگل پیکسل 3 آزمایش شد. اجرای مدل سبک‌تر زمان را به 3 میلی‌ثانیه کاهش داد. آزمایش نمونه‌ها روی آیفون x فقط کمی کُندتر بود: نمونه‌ی سبک‌تر با بهره‌گیری از gpu، پردازش را در 4 میلی‌ثانیه برای هر فریم انجام داد و نمونه‌ی سنگین و پیچیده‌تر، مِش کامل را در 14 ثانیه آماده کرد.

تاریخ درج : 1397/12/21
منبع خبر : www.zoomit.ir
نام : شهر :