Этот искусственный интеллект обладает «широким набором возможностей»…
Развитие последних достижений искусственного интеллекта ШИ, чтобы позволить работам выполнять задачи автономно в реальном мире, «значительный шаг вперед», говорят исследователи. Google и Microsoft объявили об исследованиях по применению подобных моделей искусственного интеллекта к роботам с поразительными результатами, пишет издание VICE.
«Исследователи из Google и Берлинского технологического института выпустили модель искусственного интеллекта под названием PaLM-E, которая сочетает в себе языковые и зрительные возможности для управления работами, что позволяет им автономно выполнять задачи в реальном мире – от держания пакета с чипсами, до сортировки блоков по цвету по углам прямоугольника», - говорится в статье.
Этот искусственный интеллект имеет «широкий набор возможностей», включающий в себя математические вычисления, вычисления с несколькими изображениями и мышление по цепи мыслей. Исследователи написали в статье, что искусственный интеллект использует многозадачное обучение для передачи навыков между задачами, а не тренируется на отдельных задачах. Согласно документу, модель искусственного интеллекта при управлении работами даже демонстрирует «новые способности, такие как мультимодальная цепочка мыслей и способность размышлять над несколькими изображениями, несмотря на то, что она учится только на подсказках с одного изображения».
Робот способен генерировать свой план действий в ответ на команды с помощью модели. Когда работа попросили «принести рисовую стружку из ящика», PaLM-E смог приказать ему пойти к ящикам, открыть верхнюю, достать рисовую стружку, принести ее, и положить на стол. Робот смог сделать это даже когда его побеспокоил человек: исследователь забросил рисовую стружку обратно в ящик, когда робот ее впервые взял. PaLM-E может это сделать, анализируя данные своей камеры в реальном времени.
Искусственный интеллект может отвечать на вопросы о мире, например, с каким океаном граничит Майами-Бич. PaLM-E может также давать подписи и описывать изображения.
Google – не единственная компания, которая тестирует новый мультимодальный искусственный интеллект и то, как интегрировать большие языковые модели в роботов. Корпорация Майкрософт опубликовала свое исследование о том, как она расширила возможности ChatGPT к робототехнике. Недавно они представили мультимодальную модель под названием Kosmos-1, которая может анализировать изображения на содержимое, решать визуальные головоломки, выполнять визуальное распознавание и проходить тесты на IQ.
В своей статье, описывающей результаты, исследователи Microsoft назвали конвергенцию языковых моделей с возможностями роботов шагом к созданию искусственного общего интеллекта, или AGI, обычно понимаемого как интеллект на том же уровне, что и человеческий.
PaLM-E показывает, что по мере того, как большие языковые модели становятся более масштабированными и усовершенствованными, его возможности, включая выполнение мультимодальных задач, становятся более легкими, более точными и автономными.
Читайте также:
- Самостоятельно перемещает вещи на строительных площадках: Honda презентовала своего последнего автономного робота
- Строительные блоки жизни с астероида: у ученых появились новые доказательства космического происхождения жизни на Земле
- Они возникают из тьмы группами и атакуют: в океане живет разумное существо, размер которого может превышать два метра