زمانی که اولین عکس فوری با دوربین پولوروید گرفته شد، ثبت دنیای سه بعدی در یک تصویر دو بعدی، بسیار جدید و هوشمندانه بود. امروزه محققان هوش مصنوعی بر عکس آن یعنی، تبدیل مجموعه ای از تصاویر ثابت دو بعدی به یک صحنه دیجیتال سه بعدی در عرض چند ثانیه کار می کنند.میخواهیم در این مقاله ببینیم که چطور هوش‌ مصنوعی شرکت انویدیا عکس های دو بعدی رو به مدل های سه بعدی تبدیل می کند.(هوش مصنوعی عکس های دو بعدی مدل های سه بعدی)

این فرآیند که به عنوان رندر معکوس شناخته می‌شود، از هوش مصنوعی برای تخمین رفتار نور در دنیای واقعی استفاده می‌کند. و محققان را قادر می‌سازد تا یک صحنه سه‌بعدی را از تعداد انگشت شماری از تصاویر دوبعدی در زوایای مختلف بازسازی کنند. تیم تحقیقاتی NVIDIA رویکردی را ایجاد کرده است که این کار را تقریباً به سرعت انجام می‌دهد . و آن را به یکی از اولین مدل‌هایی در نوع خود تبدیل می‌کند که آموزش شبکه عصبی و رندر سریع را با هم پیوند می زند.

NVIDIA این رویکرد را برای یک فناوری جدید محبوب به نام میدان‌های تابشی عصبی یا NeRF اعمال کرد. نتیجه ی این فناوری که Instant NeRF نامیده می شود، سریع ترین تکنیک NeRF تا به امروز است که در برخی موارد به بیش از 1000 برابر سرعت دارد. این مدل فقط به چند ثانیه برای آموزش روی ده ها عکس ثابت نیاز دارد . به علاوه داده‌های مربوط به زوایای دوربین که از آنها گرفته شده است . و سپس می‌تواند صحنه سه بعدی حاصل را در عرض چند میلی‌ثانیه نمایش دهد.

تبدیل تصاویر دو بعدی به سه بعدی با هوش مصنوعی

David Luebke، معاون تحقیقات گرافیکی NVIDIA می‌گوید: «اگر نمایش‌های سنتی سه‌بعدی مانند مش‌های چند ضلعی شبیه به تصاویر برداری باشد، NeRF‌ها مانند تصاویر بیت‌مپ هستند. آن‌ها نحوه تابش نور از یک شی یا داخل یک صحنه را به صورت متراکم ثبت می‌کنند. از این نظر، Instant NeRF می‌تواند برای 3D به همان اندازه مهم باشد که دوربین‌های دیجیتال و فشرده‌سازی JPEG برای عکاسی دوبعدی مهم است . سرعت، سهولت و دسترسی به عکس‌برداری و اشتراک‌گذاری سه بعدی را بسیار افزایش می‌دهد.

NeRF چیست ؟

نرف ها از شبکه های عصبی برای نمایش و ارائه صحنه های سه بعدی واقعی بر اساس مجموعه ای از تصاویر دو بعدی استفاده می کنند.

جمع‌آوری داده‌ها برای تغذیه یک نرف کمی شبیه به عکاسان فرش قرمز است که تلاش می‌کنند لباس یک بازیگر را از هر زاویه به تصویر بکشند. شبکه عصبی به ده ها تصویر گرفته شده از چندین موقعیت در اطراف صحنه و همچنین به موقعیت دوربین هر یک نیاز دارد.

در صحنه‌ای که شامل افراد یا سایر عناصر متحرک است، بهتر است که عکس‌ها سریع‌تر گرفته شوند . اگر حرکت بیش از حد در فرآیند ثبت تصویر دو بعدی وجود داشته باشد، صحنه سه بعدی تولید شده توسط هوش مصنوعی تار خواهد بود.

یک نرف اساساً جاهای خالی را پر می‌کند و یک شبکه عصبی کوچک را آموزش می‌دهد تا با پیش‌بینی رنگ نور تابش شده در هر جهت، از هر نقطه در فضای سه بعدی، صحنه را بازسازی کند.

در حالی که تخمین عمق و ظاهر یک شی بر اساس نمای جزئی یک مهارت طبیعی برای انسان است، اما برای هوش مصنوعی یک کار سخت است.

ایجاد یک صحنه سه بعدی با روش های سنتی، بسته به پیچیدگی و وضوح تصویرسازی ساعت ها طول می کشد. آوردن هوش مصنوعی به این عرصه سرعت کار را افزایش می دهد. مدل‌های اولیه NeRF در چند دقیقه صحنه‌های واضح و بدون آرتیفکت را ارائه می‌کردند، اما هنوز ساعت‌ها طول می‌کشید تا آموزش ببیند.

با این حال، Instant NeRF زمان رندر را چندین مرتبه کاهش می دهد. این تکنیک توسط NVIDIA به نام رمزگذاری شبکه هش چند رزولوشن توسعه داده شده است، که برای اجرای کارآمد بر روی GPU های NVIDIA بهینه شده است. محققان می توانند با یک روش رمزگذاری ورودی جدید و همچنین با استفاده از یک شبکه عصبی کوچک که به سرعت اجرا می شود، به نتایج باکیفیتی دست یابند.

این فناوری می‌تواند برای آموزش ربات‌ها و ماشین‌های خودران برای درک اندازه و شکل اشیاء با گرفتن تصاویر دوبعدی یا فیلم‌برداری ویدئویی از آنها استفاده شود. همچنین می‌تواند در معماری و سرگرمی برای تولید نمایش‌های دیجیتالی از محیط‌های واقعی استفاده شود.

فراتر از نرف ها، محققان انویدیا در حال بررسی چگونگی استفاده از این تکنیک برای تسریع چندین چالش هوش مصنوعی از جمله: یادگیری تقویتی، ترجمه زبان و الگوریتم های یادگیری عمیق هستند.