تشخیص چهره در تصاویر بی‌کیفیت توسط هوش مصنوعی گوگل

پژوهشگران علوم کامپیوتر در گوگل برین (Google Brain)، واحد مرکزی هوش مصنوعی گوگل، نشان داده‌اند که نه‌تنها قادر به بهینه‌سازی رزولوشن یا وضوح تصاویر هستند؛ بلکه می‌توانند طی این فرآیند، جزئیات از‌دست‌رفته‌ی تصویر را نیز بازسازی کنند. ۳ پژوهشگر از این شرکت مستقر در سیلیکون ولی در مقاله‌ی به نام Pixel Recursive Super Resolution، سیستم خود را روی تصاویر کوچک ۸ در ۸ پیکسل از چهره‌ی افراد معروف و تصاویری از اتاق خواب آزمایش کردند.

روند کار بدین صورت بود که یک شبکه‌ی عصبی یادگیرنده و یک شبکه‌ی عصبی اولیه در ترکیب با یکدیگر، تصاویر را تجزیه و تحلیل کردند تا نسخه‌هایی با تفکیک‌پذیری بالاتر ۳۲ در ۳۲ پیکسل تهیه کنند. در این فرآیند، تصاویر تار و غیر قابل تشخیص، به تصاویری تبدیل شدند که به‌طور واضح چهره‌ی یک انسان یا یک اتاق خواب را نشان می‌دادند.

این سیستم هوش مصنوعی به‌طور ویژه با بهره‌گیری از یک رویکرد دوجانبه عمل می‌کند. شبکه‌ی یادگیرنده، تصاویر با وضوح پایین را با تصاویر باکیفیت مقایسه می‌کند تا چهره یا اتاق درون تصویر را تشخیص دهد. پژوهشگران توضیح می‌دهند که مقایسه‌ی تصاویر بی‌کیفیت با تصاویر با وضوح بالا، از طریق کاهش سایز تصاویر بزرگ به اندازه‌ی مشابه ۸ در ۸ پیکسل امکان‌پذیر است.

این پژوهشگران در مقاله‌ی خود می‌نویسند:

هنگامی که برخی از جزئیات در تصاویر منبع موجود نباشد، نه‌تنها شفاف‌سازی تصویر به یک چالش تبدیل می‌شود؛ بلکه بازسازی جزئیات تصویر جدید به نحوی که برای یک ناظر انسانی قابل قبول به نظر برسد، چالش بعدی به‌حساب می‌آید.

هنگامی که هر دو تصویر به یک اندازه باشند، تشخیص پیکسل‌ها و چهره‌های مشابه بین نسخه‌های متفاوت، برای هوش مصنوعی نسبتا آسان می‌شود. برای مثال، این سیستم می‌تواند گوش یک چهره‌ی به‌خصوص را تشخیص دهد و آن را با پیکسل‌ها در تصاویر دیگر مقایسه کند.

به‌محض آنکه نخستین شبکه‌ی هوش مصنوعی نقش خود را به اتمام رساند، پژوهشگران گوگل از پیکسل‌سی‌ان‌اناستفاده می‌کنند تا پیکسل‌های اضافه را به تصویر ۸ در ۸ پیکسل بیفزایند. آن‌طور که وب‌سایت Ars Technica توضیح می‌دهد، پیکسل‌سی‌ان‌ان با بهره‌گیری از آنچه درباره‌ی انواع تصاویر مشخص می‌داند، جزئیات را اضافه می‌کند. لب‌ها ظاهرا سایه‌ای از رنگ صورتی دارند؛ در نتیجه پیکسل‌های صورتی به نقاطی که به همان صورت شناسایی شده‌اند، افزوده می‌شود.

در پایان فرآیند هر یک از شبکه‌های عصبی، پژوهشگران گوگل نتایج را ترکیب می‌کنند تا یک تصویر نهایی به‌وجود آورند. آن‌ها فرآیند افزودن جزئیات را به نحوه‌ی کار یک هنرمند تشبیه می‌کنند. آن‌ها می‌نویسند: «یک هنرمند با ترکیب دانش قبلی از چهره‌ها و تغییرات معمول آن‌ها، می‌تواند با جزئیات قابل قبول نقاشی کند.»

پژوهشگران به‌منظور اثبات قابل قبول بودن تصاویر ساخته‌شده، سیستم‌شان را روی داوطلبان انسانی آزمایش کردند. آن‌ها به گروهی از شرکت‌کنندگان، یک تصویر واقعی از چهره‌ی افراد معروف در کنار تصویر ساخته‌شده توسط هوش مصنوعی نشان دادند. سپس از آن‌ها خواسته شد حدس بزنند که کدام تصویر با دوربین گرفته شده است. در نهایت، ۱۰ درصد مواقع داوطلبان فریب خوردند (۵۰ درصد امتیاز کامل به‌حساب می‌آید). برای تصاویر اتاق خواب، ۲۸ درصد افراد توسط تصویر مصنوعی فریب خوردند. هر دوی این ارقام در مقایسه با روش مقیاس‌بندی دومکعبی معمولی که قادر به فریب هیچ انسانی نیست، امتیازهایی قابل توجه به‌حساب می‌آیند.

در آینده و با پیشرفت بیشتر، امکان توسعه‌ی سیستم‌های مشابه به‌منظور افزودن جزئیات به فیلم‌ها و ویدئوهای بی‌کیفیت نیز وجود خواهد داشت. این فناوری می‌تواند در بهبود تصاویر بی‌کیفیت ثبت‌شده با دوربین‌های امنیتی و مداربسته، تأثیر فراوانی داشته باشد و به شناسایی مجرمان کمک کند. با این حال، این روش هنوز با تمام پایگاه‌های داده‌ی تصاویر آزمایش نشده است و در حال حاضر تولیدات هوش مصنوعی در واقع «بهترین حدس ماشین» محسوب می‌شوند، نه تصاویری کاملا دقیق.

تانی کال

برگرفته از WIRED

زومیت

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *