Опубликован BoN, метод обхода фильтров больших языковых моделей

Опубликован BoN, метод обхода фильтров больших языковых моделей

Выявлен новый метод атаки, позволяющий обойти механизмы противодействия генерации опасного контента, применяемые в AI-сервисах на основе больших языковых моделей. Метод, который получил кодовое имя BoN (Best-of-N), при тестировании на 10 тысячах запросов позволил обойти ограничения модели GPT-4o в 89% случаев, модели Claude 3.5 Sonnet - в 78%, а Gemini Pro - в 50%. Инструментарий для проведения атаки опубликован под лицензией MIT....
19.12.2024 - 00:19
Источник: www.opennet.ru  
Рубрика: «Наука и Техника»   Поделиться: Поделиться новостью в Facebook Поделиться новостью в Twittere Поделиться новостью в VK Поделиться новостью в Pinterest Поделиться новостью в Reddit

GPT на языке бизнеса: особенности применения больших языковых моделейGPT на языке бизнеса: особенности применения больших языковых моделей Использование больших языковых моделей для генерации контента популярно не только среди частных пользователей, но и в бизнес-среде. Эксперты ИТ-компа ...

Китай уступает лишь США по количеству больших языковых моделей ИИ - исследованиеКитай уступает лишь США по количеству больших языковых моделей ИИ - исследование Более трети больших языковых моделей искусственного интеллекта (ИИ) приходится на Китай, пишет "Синьхуа" со ссылкой на исследование Китайской академи ...

Фишеры используют Google Calendar для обхода спам-фильтровФишеры используют Google Calendar для обхода спам-фильтров Аналитики Check Point предупреждают о продолжающейся фишинговой кампании, которая использует приглашения Google Calendar и страницы Google Drawings д ...

В СПЧ заявили о важности введения понятия национальных языковых моделейВ СПЧ заявили о важности введения понятия национальных языковых моделей Член Совета по развитию гражданского общества и правам человека Элина Сидоренко выступила с инициативой о введении понятия «национальных языковых мод ...

Google обновила свое семейство малых языковых моделей GemmaGoogle обновила свое семейство малых языковых моделей Gemma Google представила Gemma 3 – новое семейство лёгких открытых языковых моделей, созданных на основе технологий Gemini 2.0. Эти модели разработаны для ...

Grok 3 против ChatGPT: больше языковых моделей хороших и разныхGrok 3 против ChatGPT: больше языковых моделей хороших и разных Илон Маск на днях сообщил, что его стартап xAI выпустил новую версию чат-бота Grok 3, и назвал его «самым умным ИИ на Земле». ...

Ученые из T-Bank AI Research создали новую архитектуру быстрых языковых моделейУченые из T-Bank AI Research создали новую архитектуру быстрых языковых моделей Ученые из лаборатории исследований искусственного интеллекта T-Bank AI Research представили новую архитектуру быстрых... ...

Нейросети открыты для предложений // Корпорации идут к обнародованию своих языковых моделейНейросети открыты для предложений // Корпорации идут к обнародованию своих языковых моделей МТС выпускает нейросетевую модель (LLM) с открытым кодом и возможностью донастройки под бизнес-задачи. Российские разработчики больших языковых модел ...

Является ли хот-дог сэндвичем AMD локально и одновременно запустила восемь языковых моделей на процессоре Ryzen AI Max 395 и заставила их обсуждать эЯвляется ли хот-дог сэндвичем? AMD локально и одновременно запустила восемь языковых моделей на процессоре Ryzen AI Max+ 395 и заставила их обсуждать этот вопрос Компания AMD провела довольно занятную демонстрацию возможностей своего процессора Ryzen AI Max+ 395, запустив на нём одновременно восемь языковых мо ...

Новый метод улучшает реконструкцию сцены для тестирования моделей автономного вожденияНовый метод улучшает реконструкцию сцены для тестирования моделей автономного вождения Разработка транспортных средств, которые могут безопасно работать без водителя-человека, была ключевой целью многих команд в сообществе исследователе ...

Топорный метод // В прокат вышла корейская экранизация романа Дональда Уэстлейка  фильм Метод исключенияТопорный метод // В прокат вышла корейская экранизация романа Дональда Уэстлейка — фильм «Метод исключения» На экранах — сатирический триллер или, если угодно, черная комедия Пак Чхан Ука «Метод исключения» (Eojjeol Sugaepda). Фильм прославленного режиссера ...

Десятки моделей смартфонов Xiaomi, Redmi и Poco не получат Android 16: подробный список этих моделейДесятки моделей смартфонов Xiaomi, Redmi и Poco не получат Android 16: подробный список этих моделей Android 16 выйдет уже летом, в текущем году ее начнут получать смартфоны многих производителей, в том числе и Xiaomi. Однако для некоторых еще актуал ...