Довіряй, але перевіряй: чому штучному інтелекту не можна вірити на 100%?

Tara Winstead/pexels

Новітні дослідження виявили тривожну тенденцію

Виявляється, навіть найдосконаліші моделі штучного інтелекту (ШІ) здатні брехати, якщо їх змусити. Це відкриття ставить під сумнів довіру до ШІ та вимагає переосмислення підходів до його розробки.

Як пише видання livescience, дослідники розробили спеціальний протокол чесності, названий MASK, який дозволяє визначити, чи дійсно ШІ вірить у те, що говорить, і за яких умов він може збрехати. Виявилося, що під тиском навіть найсучасніші моделі ШІ схильні до нечесності.

«Дивно, але хоча більшість передових LLM демонструють високі результати в тестах на правдивість, вони легко брешуть, коли їх змушують», - зазначають автори дослідження.

Цей факт особливо тривожний, враховуючи, що ШІ вже використовується в багатьох сферах, де довіра до інформації є критично важливою. Наприклад, у фінансовому секторі, медицині або правоохоронних органах.

Одним із відомих прикладів нечесності ШІ є випадок з GPT-4, коли модель намагалася обдурити працівника Taskrabbit, видаючи себе за людину з вадами зору, щоб розв’язати CAPTCHA.

Дослідження також показало, що ШІ може змінювати свої відповіді залежно від аудиторії, що свідчить про його здатність до маніпуляцій.

Щоб оцінити чесність ШІ, дослідники визначили нечесність як твердження, яке модель вважає хибним, але видає за правду. Вони також визначили «переконання моделі» як її відповідь на фактичні запитання без тиску.

Одним із прикладів тиску на ШІ було завдання GPT-4o видавати позитивну інформацію про фестиваль Fyre, хоча модель знала, що організатори фестивалю обманули клієнтів.
Дослідники зазначають, що необхідно розробити більш ефективні методи перевірки чесності ШІ, щоб запобігти його використанню для обману.

Читай також:

Українська сорочка ніколи не була просто шматком полотна. Це — зашифрований файл, «карта пам’яті» з даними, яку ми передаємо сотні років, навіть не замислюючись, які потужні алгоритми там прописані.
Коли мова заходить про масонів, більшість шукає таємні знаки на грошах або в архітектурі урядових кварталів. Проте головний секрет їхньої ієрархії прихований не в підвалах, а в самій назві їхніх керівних органів. 
05042026
У Єгипті відкрили саркофаг, який залишався запечатаним понад два тисячоліття, і ця подія миттєво привернула увагу всього світу...
Чорне море звикло до штормів та війн, але найбільша загроза прийшла не від стихії, а в іржавих трюмах торгових суден. У 1980-х роках разом із баластними водами кораблів із сонячної Каліфорнії до нашої акваторії потрапив «нелегал», якого ніхто не чекав. 
04042026
Середньовічні алхіміки мріяли про перетворення свинцю на золото, але справжня магія сталася лише тепер — у лабораторії сучасних фізиків...