تبدیل تصاویر دو بعدی به سه بعدی با هوش مصنوعی
زمانی که اولین عکس فوری با دوربین پولوروید گرفته شد، ثبت دنیای سه بعدی در یک تصویر دو بعدی، بسیار جدید و هوشمندانه بود. امروزه محققان هوش مصنوعی بر عکس آن یعنی، تبدیل مجموعه ای از تصاویر ثابت دو بعدی به یک صحنه دیجیتال سه بعدی در عرض چند ثانیه کار می کنند.میخواهیم در این مقاله ببینیم که چطور هوش مصنوعی شرکت انویدیا عکس های دو بعدی رو به مدل های سه بعدی تبدیل می کند.(هوش مصنوعی عکس های دو بعدی مدل های سه بعدی)
این فرآیند که به عنوان رندر معکوس شناخته میشود، از هوش مصنوعی برای تخمین رفتار نور در دنیای واقعی استفاده میکند. و محققان را قادر میسازد تا یک صحنه سهبعدی را از تعداد انگشت شماری از تصاویر دوبعدی در زوایای مختلف بازسازی کنند. تیم تحقیقاتی NVIDIA رویکردی را ایجاد کرده است که این کار را تقریباً به سرعت انجام میدهد . و آن را به یکی از اولین مدلهایی در نوع خود تبدیل میکند که آموزش شبکه عصبی و رندر سریع را با هم پیوند می زند.
NVIDIA این رویکرد را برای یک فناوری جدید محبوب به نام میدانهای تابشی عصبی یا NeRF اعمال کرد. نتیجه ی این فناوری که Instant NeRF نامیده می شود، سریع ترین تکنیک NeRF تا به امروز است که در برخی موارد به بیش از 1000 برابر سرعت دارد. این مدل فقط به چند ثانیه برای آموزش روی ده ها عکس ثابت نیاز دارد . به علاوه دادههای مربوط به زوایای دوربین که از آنها گرفته شده است . و سپس میتواند صحنه سه بعدی حاصل را در عرض چند میلیثانیه نمایش دهد.
David Luebke، معاون تحقیقات گرافیکی NVIDIA میگوید: «اگر نمایشهای سنتی سهبعدی مانند مشهای چند ضلعی شبیه به تصاویر برداری باشد، NeRFها مانند تصاویر بیتمپ هستند. آنها نحوه تابش نور از یک شی یا داخل یک صحنه را به صورت متراکم ثبت میکنند. از این نظر، Instant NeRF میتواند برای 3D به همان اندازه مهم باشد که دوربینهای دیجیتال و فشردهسازی JPEG برای عکاسی دوبعدی مهم است . سرعت، سهولت و دسترسی به عکسبرداری و اشتراکگذاری سه بعدی را بسیار افزایش میدهد.
NeRF چیست ؟
نرف ها از شبکه های عصبی برای نمایش و ارائه صحنه های سه بعدی واقعی بر اساس مجموعه ای از تصاویر دو بعدی استفاده می کنند.
جمعآوری دادهها برای تغذیه یک نرف کمی شبیه به عکاسان فرش قرمز است که تلاش میکنند لباس یک بازیگر را از هر زاویه به تصویر بکشند. شبکه عصبی به ده ها تصویر گرفته شده از چندین موقعیت در اطراف صحنه و همچنین به موقعیت دوربین هر یک نیاز دارد.
در صحنهای که شامل افراد یا سایر عناصر متحرک است، بهتر است که عکسها سریعتر گرفته شوند . اگر حرکت بیش از حد در فرآیند ثبت تصویر دو بعدی وجود داشته باشد، صحنه سه بعدی تولید شده توسط هوش مصنوعی تار خواهد بود.
یک نرف اساساً جاهای خالی را پر میکند و یک شبکه عصبی کوچک را آموزش میدهد تا با پیشبینی رنگ نور تابش شده در هر جهت، از هر نقطه در فضای سه بعدی، صحنه را بازسازی کند.
در حالی که تخمین عمق و ظاهر یک شی بر اساس نمای جزئی یک مهارت طبیعی برای انسان است، اما برای هوش مصنوعی یک کار سخت است.
ایجاد یک صحنه سه بعدی با روش های سنتی، بسته به پیچیدگی و وضوح تصویرسازی ساعت ها طول می کشد. آوردن هوش مصنوعی به این عرصه سرعت کار را افزایش می دهد. مدلهای اولیه NeRF در چند دقیقه صحنههای واضح و بدون آرتیفکت را ارائه میکردند، اما هنوز ساعتها طول میکشید تا آموزش ببیند.
با این حال، Instant NeRF زمان رندر را چندین مرتبه کاهش می دهد. این تکنیک توسط NVIDIA به نام رمزگذاری شبکه هش چند رزولوشن توسعه داده شده است، که برای اجرای کارآمد بر روی GPU های NVIDIA بهینه شده است. محققان می توانند با یک روش رمزگذاری ورودی جدید و همچنین با استفاده از یک شبکه عصبی کوچک که به سرعت اجرا می شود، به نتایج باکیفیتی دست یابند.
این فناوری میتواند برای آموزش رباتها و ماشینهای خودران برای درک اندازه و شکل اشیاء با گرفتن تصاویر دوبعدی یا فیلمبرداری ویدئویی از آنها استفاده شود. همچنین میتواند در معماری و سرگرمی برای تولید نمایشهای دیجیتالی از محیطهای واقعی استفاده شود.
فراتر از نرف ها، محققان انویدیا در حال بررسی چگونگی استفاده از این تکنیک برای تسریع چندین چالش هوش مصنوعی از جمله: یادگیری تقویتی، ترجمه زبان و الگوریتم های یادگیری عمیق هستند.
دیدگاهتان را بنویسید