Корпорація Toshiba розробила ШІ з розпізнаванням 3D, який здатний вимірювати відстань з точністю до стереокамери, використовуючи зображення, зроблене комерційною камерою, та аналізуючи розмитість зображення, спричинене об'єктивом камери, за допомогою глибокого навчання. Ця технологія виключить використання стереокамер, що врешті-решт зменшує вартість та простір. Toshiba представить це досягнення на міжнародній конференції з комп'ютерного зору (ICCV2019), яка відбудеться в Південній Кореї 30 жовтня 2019 року з 10 ранку.
Зондування зображень стає все більш важливим, і такі програми, як роботи, що рухаються об'єктами, автономні безпілотні машини, дистанційно керовані безпілотні літальні апарати, що оглядають інфраструктуру тощо, вимагають не лише зображень суб'єктів, вони потребують невеликого пристрою для аналізу 3D-даних для включення форми та відстані. Отже, були розширені дослідження для розробки вимірювальної технології з монокулярними камерами (їх легко мініатюризувати) шляхом використання глибокого навчання для кращого вивчення форми, фону та інших даних декорацій зображуваного об'єкта.
Цей метод має недолік; точність відстані оцінюється за допомогою монокулярної камери залежно від вивчених даних декорацій, що спричиняє падіння точності через знімки, зроблені в різних пейзажах. Для подолання цього Toshiba розробила кольорову діафрагму з діафрагмою, в якій до об'єктива прикріплений двоколірний фільтр, а колір та розмір розмитості зображення аналізуються відповідно до відстані від об'єкта. Хоча це вирішує проблему залежності від даних, модифікація існуючих лінз вимагає часу та грошей.
Toshiba подолала цю проблему, розробивши ШІ за допомогою технології 3D-розпізнавання, яка використовує глибоке навчання, щоб проаналізувати, як зображення розмивається відповідно до його положення на об'єктиві, щоб досягти вимірювання відстані з такою ж високою точністю, як і система стереокамери., із звичайною монокулярною камерою, але без необхідності в даних декорацій. До цього часу вважалося теоретично неможливим виміряти відстань на основі форми розмитості, яка однакова для об'єктів як з відстанню, так і далеко, коли вони на рівному віддаленні від фокусної точки. Але аналітичні результати показали суттєву різницю між розмитими формами поблизу та далеких об'єктів, навіть якщо вони рівновіддалені від фокусної точки. Завдяки цьому Toshiba успішно проаналізувала дані розмиття із захоплених зображень за допомогою модуля глибокого навчання, навченого моделі глибокої нейронної мережі.
Коли світло проходить крізь лінзу, відомо, що форма створеного розмиття змінюється залежно від довжини хвилі світла та його положення в лінзі. У розвиненій мережі положення та колір обробляються окремо, щоб правильно сприймати зміни у формі розмиття, а потім, пройшовши через зважений механізм уваги, контролювати, де на градієнті яскравості фокусувати, щоб правильно виміряти відстань. Завдяки навчанню мережа потім оновлюється, щоб зменшити похибку між виміряною відстанню та фактичною відстанню. Використовуючи цей модуль AI, Toshiba підтвердила, що одне зображення, зроблене комерційною камерою, реалізує однакову точність вимірювання відстані, забезпечену стереокамерами. Більше інформації можна знайти на цій офіційній сторінці Toshiba.
Toshiba підтвердить універсальність системи за допомогою наявних у продажу камер та об'єктивів та пришвидшить обробку зображень, прагнучи до публічного впровадження у 2020 фінансовому році.