Ученые из T-Bank AI Research повысили безопасность и точность ответов ИИ до 15%

Ученые из T-Bank AI Research повысили безопасность и точность ответов ИИ до 15%

Уточняется, что созданная методика основана на существующих методах Trust Region. Результаты исследования получили признание в мировом сообществе в том числе и были представлены на международной конференции по обучению представлениям (ICRL), которая проходит в Сингапуре 24–28 апреля.

Новый метод может применяться в различных направлениях, в том числе при создании виртуальных ассистентов и чат-ботов в областях от образования до медицины. Среди его преимуществ ученые назвали улучшение качества генерации текстов, снижение эффекта избыточной оптимизации и простоту реализации.

«Наш новый подход позволяет сохранять баланс между способностями модели решать новую узкую задачу и общим пониманием картины мира, что открывает возможности для создания более гибких и адаптивных моделей. Это направление еще далеко не исчерпано — у ученых остается большое пространство для дальнейших исследований ИИ и улучшений, которые могут привести к новым прорывам в оптимизации языковых моделей и их применении в реальном мире», — уточнил руководитель научной группы AI Alignment лаборатории исследований искусственного интеллекта T-Bank AI Research Борис Шапошников.

Отмечается, что в перспективе метод Trust Region будет играть значимую роль в создании более эффективных языковых моделей и закладывании фундамента для новой парадигмы в развитии искусственного интеллекта.

Специалисты протестировали метод на метриках Alpaca Eval 2.0 и Arena Hard. Тест на Alpaca Eval 2.0 показал улучшение качества ответов ИИ с 2,3 до 15,1%, чаще наблюдались полезные и уместные ответы.

Отмечается, что в процессе обучения языковая модель способна отклоняться от настроек. Впоследствии это провоцирует резкий упадок качества ответов, а также влияет на вероятность «заблуждения» модели на пути обучения. В качестве меры противодействия ученые из T-Bank AI Research предложили периодически обновлять «настройки по умолчанию». По их словам, такой метод позволяет модели отметить ключевые «ориентиры» и избежать отклонений на пути к целевой точке.

Уточняется, что Trust Region учитывает динамическое изменение этой точки посредством мягкого обновления с небольшими изменениями на каждом этапе обучения или жесткого — целиком с определенной периодичностью. Согласно экспериментам, оба типа обновления приводят к более понятным и безопасным ответам. Так, ответы обученных на задаче сокращения длинных текстов моделей стали лучше на 10–15%, ИИ также меньше путается при сложных задачах и лучше следует инструкциям.

Иллюстрация к статье: Яндекс.Картинки
Самые свежие новости медицины на нашей странице в Вконтакте

Оставить комментарий

Вы можете использовать HTML тэги: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>