Доверяй, но проверяй: почему искусственному интеллекту нельзя верить на 100%?

Tara Winstead/pexels

Новейшие исследования выявили тревожную тенденцию

Оказывается, даже самые совершенные модели искусственного интеллекта (ИИ) способны врать, если их заставить. Это открытие ставит под сомнение доверие к ИИ и требует переосмысления подходов к его разработке.

Как пишет издание livescience, исследователи разработали специальный протокол честности, названный MASK, который позволяет определить, действительно ли ИИ верит в то, что говорит, и при каких условиях он может солгать. Оказалось, что под давлением даже самые современные модели ИИ склонны к нечестности.

«Удивительно, но хотя большинство передовых LLM демонстрируют высокие результаты в тестах на правдивость, они легко лгут, когда их заставляют», - отмечают авторы исследования.

Этот факт особенно тревожен, учитывая, что ИИ уже используется во многих сферах, где доверие к информации является критически важным. Например, в финансовом секторе, медицине или правоохранительных органах.

Одним из известных примеров нечестности ИИ является случай с GPT-4, когда модель пыталась обмануть работника Taskrabbit, выдавая себя за слабовидящего человека, чтобы решить CAPTCHA.

Исследование также показало, что ИИ может менять свои ответы в зависимости от аудитории, что свидетельствует о его способности к манипуляциям.

Чтобы оценить честность ИИ, исследователи определили нечестность как утверждение, которое модель считает ложным, но выдает за правду. Они также определили «убеждение модели» как ее ответ на фактические вопросы без давления.

Одним из примеров давления на ИИ было задание GPT-4o выдавать положительную информацию о фестивале Fyre, хотя модель знала, что организаторы фестиваля обманули клиентов.

Исследователи отмечают, что необходимо разработать более эффективные методы проверки честности ИИ, чтобы предотвратить его использование для обмана.

Читай также:

Украинская рубашка никогда не была просто куском ткани. Это — зашифрованный файл, «карта памяти» с данными, которую мы передаем из поколения в поколение, даже не задумываясь, какие мощные алгоритмы там заложены.
Когда речь заходит о масонах, большинство ищет тайные знаки на монетах или в архитектуре правительственных кварталов. Однако главный секрет их иерархии скрыт не в подвалах, а в самом названии их руководящих органов. 
05042026
В Египте открыли саркофаг, который оставался запечатанным более двух тысячелетий, и это событие мгновенно привлекло внимание всего мира...
Чёрное море привыкло к штормам и войнам, но самая большая угроза пришла не от стихии, а в ржавых трюмах торговых судов. В 1980-х годах вместе с балластными водами кораблей из солнечной Калифорнии в нашу акваторию попал «нелегал», которого никто не ждал. 
04042026
Средневековые алхимики мечтали о превращении свинца в золото, но настоящая магия произошла только сейчас — в лаборатории современных физиков...