Нейросеть, разгадывающая кроссворды, — не редкость. Так, например, в 2021-м разработчик Мэтт Гинзберг представил инструмент, который заполняет все клеточки за несколько минут, подбирая слова из открытых данных. Этот искусственный интеллект был хорош, но не идеален. Ученые из Калифорнийского университета в Беркли подошли к вопросу со всей серьезностью, дабы создать суперпроизводительную программу, которая бы не просто конкурировала с людьми, а в разы их превосходила. И, кажется, у них это получилось.
Свое детище ученые назвали Berkeley Crossword Solver (BCS). Если верить сайту университета, программа смогла обыграть всех участников на Американском турнире по кроссвордам — крупнейшем и самом продолжительном подобном мероприятии. Прежде в турнире уже участвовали нейросети, и тоже весьма удачно. Программа Proverb, созданная в 1998 году, стала 213-й из 252 участников турнира. Модели Dr. Fill удалось улучшить результат. В 2012 году она заняла 141 место. И это при том, что в турнире участвовало уже 650 человек.
Ученые из Беркли решили объединиться с создателем Dr. Fill — тем самым Мэттом Гинзбергом. Информационная система исследователей в компании с поисковой системой Гинзберга показала потрясающий результат. В 2021 году нейросеть стала первой среди тысячи с лишним конкурентов. ИИ решил все семь головоломок турнира менее чем за минуту, пропустив всего три буквы в двух кроссвордах.
По мнению ученых, это все еще далеко до идеала. Но и создание подобного ИИ — задача не из легких. Дело в том, что решать кроссворды сложно как людям, так и программам. Многие вопросы расплывчаты или недостаточно внятны, на них нельзя ответить, пока не будут заполнены другие клеточки. Некоторые задания требуют не просто знания фактов, а рассуждения или понимания игры слов. BCS справляется со сложностями благодаря двухэтапному процессу решения. Сначала нейросеть генерирует все возможные ответы на каждый вопрос, учитывая их вероятность. Затем активирует генеративную языковую модель для поиска конфликтов между пересекающимися ответами.
Проведя предварительный анализ ошибок, ученые обнаружили, что их ИИ хорошо удавались вопросы общих знаний и поиск определений. Однако он зачастую плохо понимал игру слов и тематические подсказки. Благодаря многоступенчатой системе ответа слабые места удалось подтянуть. В итоге нейросеть получилась настолько дотошной, что проверяет даже отдельные символы, в которых не слишком уверена.
Помимо турнира, создатели проверили BCS на головоломках от пяти крупных издателей кроссвордов, включая The New York Times. Выяснилось, что ИИ подбирает точные буквы примерно в 99,7% случаях. Эта цифра увеличивается до 99,9%, если не учитывать головоломки, связанные с редкими темами. Кроме того, нейросеть решает 81,7% головоломок без единой ошибки, что на 24,8% лучше, чем было у программы-предшественницы.