OpenAI провела тесты: новые системы ИИ ошибаются чаще прежнего

OpenAI провела тесты: новые системы ИИ ошибаются чаще прежнего

Согласно публикации The New York Times, случаи, когда искусственный интеллект выдает неверные данные, называемые галлюцинациями, происходят все чаще. Издание приводит пример: бот технической поддержки инструмента Cursor сообщил пользователям ложную информацию о запрете использования сервиса на нескольких устройствах. Впоследствии руководство компании опровергло эти данные. Отмечается, что даже самые современные системы от OpenAI, Google и DeepSeek демонстрируют рост количества ошибок. Несмотря на улучшение математических способностей, умение работать с фактами у новых ИИ-моделей снизилось. Причины этого технологические компании пока объяснить не могут. Системы искусственного интеллекта строятся на математических вероятностях и не обладают механизмами различения правды и лжи. В некоторых тестах, по данным The New York Times, частота галлюцинаций достигала 79%. Представители компаний признают, что полностью исключить ошибки невозможно. Особую обеспокоенность вызывает использование ИИ в таких сферах, как право, медицина и бизнес, где ошибки могут привести к значительным последствиям. По данным OpenAI, их новейшая система o3 допустила ошибки в 33% случаев при тестировании на знание публичных личностей, а более новая версия o4-mini — в 48%. В другом тесте, SimpleQA, частота ошибок достигла 79%. Тестирования показывают, что аналогичные проблемы фиксируются у моделей других компаний, включая Google и DeepSeek. Причиной роста числа ошибок специалисты называют особенности новых методо...
09.05.2025 - 12:19
Источник: astera.ru  
Рубрика: «Наука и Техника»   Поделиться: Поделиться новостью в Facebook Поделиться новостью в Twittere Поделиться новостью в VK Поделиться новостью в Pinterest Поделиться новостью в Reddit

BMW провела испытания неподвижной ветроэнергетической системыBMW провела испытания «неподвижной» ветроэнергетической системы Немецкий автопроизводитель BMW установил первую в Великобритании «неподвижную» ветроэнергетическую систему. Она расположена на крыше завода по произв ...

Тесты T1 Интеграции подтвердили эффективность системы хранения данных от YadroТесты «T1 Интеграции» подтвердили эффективность системы хранения данных от Yadro «T1 Интеграция», российский системный интегратор, завершила тестирование специализированной системы хранения... ...

Новые дроны и новые антидроновые системы: вышел дайджест БеспилотаНовые дроны и новые антидроновые системы: вышел дайджест "Беспилота" Телеграм-канал "Беспилот", посвящённый разработке, производству и эксплуатации БПЛА в России, выпустил очередной дайджест – подборку главных событий ...

Софтлайн Решения (ГК Softline) провела пилотирование системы управления жизненным циклом Appius-PLM УЖЦИ на промышленном предприятии«Софтлайн Решения» (ГК Softline) провела пилотирование системы управления жизненным циклом «Appius-PLM УЖЦИ» на промышленном предприятии «Софтлайн Решения» (ГК Softline) провела пилотный проект по тестированию системы «Appius-PLM УЖЦИ» для управления конструкторско-технологической подг ...

OpenAI ведет разработку системы контекстной рекламы в ChatGPTOpenAI ведет разработку системы контекстной рекламы в ChatGPT Компания OpenAI изучает возможность внедрения рекламных форматов в интерфейс ChatGPT. Об этом сообщают источники издания The Information. По их данны ...

GPU Blackwell: NVIDIA поставляет первые системы для OpenAI и Microsoft (обновление)GPU Blackwell: NVIDIA поставляет первые системы для OpenAI и Microsoft (обновление) В 2025 году NVIDIA планирует поставить сотни тысяч графических процессоров Blackwell, производство которых должно быть в полном разгаре после небольш ...

Инструмент от OpenAI чаще других ИИ галлюцинирует. Например, выдумывал свои методы леченияИнструмент от OpenAI чаще других ИИ галлюцинирует. Например, выдумывал свои методы лечения Согласно отчету Associated Press, инженеры-программисты, разработчики и ученые-исследователи испытывают серьезные опасения по поводу транскрипций Whi ...

Поисковые системы в РФ все чаще выводят Telegram-каналы в топ выдачиПоисковые системы в РФ все чаще выводят Telegram-каналы в топ выдачи Контент из Telegram-каналов стал активнее появляться в результатах поиска, особенно в «Яндексе». Согласно исследованию Seowork, переходы из поисковик ...

МТС: управляющие и нефтесервисные компании Тюмени стали чаще внедрять системы видеонаблюденияМТС: управляющие и нефтесервисные компании Тюмени стали чаще внедрять системы видеонаблюдения МТС проанализировала спрос на установку систем видеонаблюдения и видеоаналитики в Тюменской области. За 10 месяцев... ...

Партия Новые люди провела в Костроме Всероссийский предпринимательский диктантПартия «Новые люди» провела в Костроме Всероссийский предпринимательский диктант 19 ноября в Костроме на площадке Высшей IT-школы КГУ состоялся первый Всероссийский предпринимательский диктант. Мероприятие прошло одновременно в 50 ...

СМИ: EA закрыла студию авторов игры про Черную Пантеру и провела новые увольненияСМИ: EA закрыла студию авторов игры про Черную Пантеру и провела новые увольнения Electronic Arts (EA) продолжает прореживать штат, сообщает портал IGN со ссылкой на внутреннее письмо от президента подразделения EA Entertainment Ло ...

OpenAI представила новые open-source модели GPT-oss и анонсировала GPT-5OpenAI представила новые open-source модели GPT-oss и анонсировала GPT-5 OpenAI впервые с 2019 года выпустила открытые модели под названием gpt-oss-120b и gpt-oss-20b. Эти модели распространяются под лицензией Apache 2.0, ...