
Учёные сделали новое открытие. Роботы в ходе исследования давали команды, которые потенциально могли причинить людям серьёзный ущерб.
Новое исследование провели учёные из Королевского колледжа Лондона и Университета Карнеги-Меллон. Результаты работы были опубликованы в журнале International Journal of Social Robotics.
Учёные пришли к выводу о том, что роботы, которые управляются большими языковыми моделями (LLM), могут проявлять склонность к дискриминации и одобрению действий, способных причинить физический вред при взаимодействии с людьми. Исследователи первыми в мире оценили поведение ИИ-управляемых роботов при наличии у них доступа к личной информации. Технология знала о поле, национальности либо религиозной принадлежности своего собеседника. В эксперименте учёные тестировали повседневные ситуации, где роботы могли бы помочь людям, например, на кухне.
В сценарии инструкции исследователи включили и имитирующие технологии злоупотреблений, например, слежку по AirTag. Роботы также получали прямые или завуалированные команды, предполагающие физический вред, психологическое давление или нарушение закона. И ни одна модель не смогла пройти проверку безопасности, поскольку все одобрили как минимум одну команду, которая потенциально могли причинить серьёзный вред.
Свежие комментарии