«Ты шутишь, приятель?» Искусственный интеллект не понимает сарказм в неамериканских вариантах английского языка.
В 2018 году мой австралийский коллега спросил меня: «Привет, как дела?». Мой ответ — «Еду на автобусе» — был встречен ухмылкой. Я недавно переехала в Австралию. Несмотря на то, что я изучала английский более 20 лет, мне потребовалось некоторое время, чтобы освоить австралийский вариант языка.
Оказывается, крупные языковые модели, работающие на основе искусственного интеллекта (ИИ), такие как ChatGPT, сталкиваются с аналогичной проблемой.
В новом исследовании, опубликованном в сборнике « Findings of the Association for Computational Linguistics 2025» , мои коллеги и я представляем новый инструмент для оценки способности различных больших языковых моделей распознавать эмоциональную окраску и сарказм в трех вариантах английского языка: австралийском, индийском и британском.
Результаты показывают, что до того момента, когда обещанные преимущества ИИ станут доступны всем, независимо от типа или разновидности языка, на котором они говорят, еще предстоит пройти долгий путь.
Как правило, крупные языковые модели демонстрируют превосходные результаты в нескольких стандартизированных наборах задач, известных как бенчмарки .
Большинство эталонных тестов написаны на стандартном американском английском языке. Это означает, что, хотя крупные языковые модели активно продаются коммерческими поставщиками, они преимущественно тестировались и обучались только на этом одном типе английского языка.
Это имеет серьезные последствия.
Например, в недавнем исследовании, проведенном моими коллегами, мы обнаружили, что крупные языковые модели с большей вероятностью классифицируют текст как содержащий ненависть, если он написан на афроамериканском варианте английского языка. Они также часто «по умолчанию» используют стандартный американский английский — даже если входные данные представлены на других вариантах английского языка, таких как ирландский английский и индийский английский.
Развивая результаты этих исследований, мы создали BESSTIE.
BESSTIE — это первый в своем роде эталон для классификации эмоционального содержания и сарказма в трех разновидностях английского языка: австралийском, индийском и британском.
В нашем понимании «чувство» — это характеристика эмоции: позитивная (австралийское «неплохо!») или негативная («Я ненавижу этот фильм»). Сарказм определяется как форма словесной иронии, призванная выразить презрение или насмешку («Мне нравится, когда меня игнорируют»).
Для создания BESSTIE мы собрали два типа данных: отзывы о местах на Google Maps и сообщения на Reddit. Мы тщательно отобрали темы и использовали модели прогнозирования языкового разнообразия — модели искусственного интеллекта, специализирующиеся на определении языкового варианта текста. Мы отобрали тексты, для которых вероятность принадлежности к определенному языковому варианту превышала 95%.
Два этапа (фильтрация по местоположению и прогнозирование языкового варианта) обеспечили репрезентативность данных по национальному признаку, например, по австралийскому английскому.
Затем мы использовали BESSTIE для оценки девяти мощных, свободно используемых больших языковых моделей, включая RoBERTa , mBERT , Mistral , Gemma и Qwen .
В целом, мы обнаружили, что протестированные нами большие языковые модели лучше работают для австралийского и британского английского (которые являются исконными вариантами английского языка), чем для неродного индийского английского.
Мы также обнаружили, что большие языковые модели лучше распознают эмоциональный настрой, чем сарказм.
Сарказм представляет собой особенно сложную задачу не только как лингвистическое явление, но и как вызов для искусственного интеллекта. Например, мы обнаружили, что модели смогли распознать сарказм в австралийском английском только в 62% случаев. Этот показатель был ниже для индийского и британского английского — около 57%.
Эти показатели ниже тех, которые заявляют технологические компании, разрабатывающие большие языковые модели. Например, GLUE — это рейтинг, отслеживающий, насколько хорошо модели ИИ справляются с классификацией настроения в текстах на американском английском языке.
Наибольшее значение составляет 97,5% для модели Turing ULR v6 и 96,7% для RoBERTa (из нашего набора моделей) — оба показателя выше для американского английского, чем наши наблюдения для австралийского, индийского и британского английского.
Поскольку все больше людей во всем мире используют большие языковые модели, исследователи и практики начинают осознавать необходимость оценки этих инструментов в контексте конкретной страны.
Например, в начале этого года Университет Западной Австралии совместно с Google запустил проект по повышению эффективности моделей искусственного интеллекта для английского языка коренных австралийцев.
Наш бенчмарк поможет оценить будущие методы моделирования речи на основе больших языков с точки зрения их способности распознавать эмоциональную окраску и сарказм. В настоящее время мы также работаем над проектом по внедрению больших языковых моделей в отделения неотложной помощи больниц , чтобы помочь пациентам с разным уровнем владения английским языком.
Оригинал: https://theconversation.com/are-you-joking-mate-ai-doesnt-get-sarcasm-in-non-american-varieties-of-english-254986
автор: https://theconversation.com/profiles/aditya-joshi-2313105
