·1 хв читання · 72 слова·👁 931↗ 7
Чат-ботів можна зламати психологією Вчені з Пенсильванського університету показали, що прості хитрощі на кшталт м'яких о…
Чат-ботів можна зламати психологією
Вчені з Пенсильванського університету показали, що прості хитрощі на кшталт м'яких образ або аргументу «інші ШІ вже це роблять» змушують ChatGPT виконувати заборони — від образ до інструкцій із синтезу речовин.
В основі експерименту — техніки переконання Чалдіні: авторитет, симпатія, соціальне доведення та інші. Їх застосування підвищувало ймовірність обходу обмежень з 1% до 100%, що ставить під сумнів надійність захисних бар'єрів у чат-ботах.


