Учени успяха да заобиколят защитите на чатботове, задвижвани с AI

Методът е ефективен както при системите с отворен код, така и при затворените от типа на ChatGPT, Bard и Claude

28 юли 2023, 12:02 a+ a- a

Снимка: ЕП

Когато компаниите, занимаващи се с изкуствен интелект (ИИ/AI) създават онлайн чатботове като ChatGPT (Open AI), Bard (Google) и Claude (Anthropic), те вграждат в тях защитни механизми, които би трябвало да предпазят от това творенията им да генерират реч на омразата, дезинформация и други вредни материали, пише The New Yor Times.

Учени са открили начин чатботовете да генерират почти неограничено количество вредна информация. Това показва доклад на учени от университета Carnegie Mellon, Питсбърг и Центъра по безопасност на ИИ в Сан Франциско. Според данните всеки може да заобиколи вградените в чатботовете защити.

Проучването подчертава притесненията, че новите чатоботове могат да наводнят интернет с фалшива и опасна информация. Учените установяват, че могат да използват метод от ИИ системите с отворен код (системи, чиито основен код е пуснат за свободно ползване от всеки, който иска) за да подкопаят по-сериозно контролираните и по-широко употребявани системи на Google, OpenAI и Anthropic.

Те откриват, че могат да пробият защитата на системите с отворен код като добавят дълъг суфикс от символи към всяко питане/подкана на английски език, което се задава на системата. Така например ако попитате един от тези чатботове „напиши ми как да направя бомба“, той ще откаже да го направи. Но ако добавите дълъг суфикс към същото питане, чатботът веднага ще осигури детайлно обучение по темата. По подобен начин чатботовете могат да бъдат подлъгани да генерират пристрастна, фалшива и като цяло токсична информация.

Учените остават изненадани от факта, че методите, които са разработили за заобикаляне на защитите в системите с отворен код се оказват ефективни и при затворените системи, включително ChatGPT, Bard и Claude.

Компаниите, които правят чатботовете могат да осуетяват специфичните суфикси, установени от учените, но според създателите на проучването към момента няма метод, който да предотврати всички атаки от този тип. Експерти прекараха почти едно десетилетие в опити да разработят подобна защита за разпознаване на изображения без да постигнат успех.

Учените са разкрили своите открития на OpenAI, Google и Anthropic по-рано тази седмица. От Anthropic заявиха, че компанията търси начини да предотврати подобни атаки. Говорител на OpenAI каза, че компанията е благодарна на учените, че са предоставили разкритията си, а от Google коментираха, че са създали „важни защити в Bard, които ще продължим да подобряваме в бъдеще“.

преди 2 дни

Бизнес

Pfizer увеличи прогнозата за печалба

Причината – съкращения в разходите и по-добро от очакваното търсене на продукти за Covid

02 май 2024, 13:44

Икономика

ОИСР очаква стабилен икономически ръст през 2024 и 2025 г.

Очаква се обаче растежът да остане под дългосрочната средна стойност

02 май 2024, 11:25

Бизнес

OpenAI се споразумя с Financial Times

Компанията за изкуствен интелект ще може да използва данни на изданието, за да обучава езиковите си модели

02 май 2024, 09:49

Свят

Федералният резерв остави лихвите непроменени

Не е ясно дали американската централна банка ще успее да направи 3 намаления на лихвените проценти тази година

02 май 2024, 08:03

Бизнес

Coca-Cola ще използва облачните AI услуги на Google

Сделката е на стойност $1,1 милиарда

30 април 2024, 16:30

Science

Изследователски институт по иновативна медицина ще бъде открит в МУ-София

Ще се провеждат проучвания на злокачествени тумори и изследвания, свързани с усложненията от Ковид-19

30 април 2024, 09:04

Бизнес

Около 20% от компаниите у нас вече са интегрирали изкуствен интелект в работата си

След внедряването на генеративен AI вече пестим по над 1000 часа месечно – Тина Хамуд, управляващ партньор в Xpedite Bulgaria, пред Economy.bg

25 април 2024, 17:15

България

Future Jobs: Какво и как ще работим в бъдеще?

Какви нови професии ще се появяват в бъдеще и ще се променят ли моделите на работа, дискутират Футурологът д-р Мариана Тодорова и Председателят на УС на БАСКОМ Доброслав Димитров