Партнёрский материал, Интервью — 22 августа 2024, 13:20

Lifelong learning, нейронки и наука. Интервью с Машей Тихоновой — исследовательницей в области больших нейронных сетей

За последние несколько лет технологии с искусственным интеллектом превратились в часть повседневной жизни. Нейросети и алгоритмы машинного обучения спрятаны в привычных сервисах вроде приложения вызова такси, прогноза погоды или онлайн-кинотеатров, и значимо влияют на развитие большинства индустрий.

SRSLY и Яндекс Образование запускают цикл интервью с теми, кто сегодня такие технологии создает, — ML-специалистами. Героиней первого материала стала специалист по Data Science Мария Тихонова, с которой мы обсудили ее путь от студентки МГУ и Школы анализа данных до должности в SberDevices и попробовали разобраться, как ИИ влияет на креативные индустрии и какие скиллы стоит осваивать тем, кто далек от мира IT.

Давай начнем с главного  расскажи, чем ты занимаешься?

Я кандидат компьютерных наук, главный инженер по разработке в SberDevices, а еще преподаю в Высшей Школе Экономики и онлайн-образовании OTUS. В SberDevices я занимаюсь обучением больших языковых моделей и их оценкой. 

  • Большие языковые модели — это сложные системы искусственного интеллекта, созданные для анализа и обработки естественного языка. Их используют для решения разнообразных задач, связанных с обработкой текста, например, для автоматического перевода, создания резюме, написания статей и даже для создания контента. Одна из их ключевых особенностей — способность обучаться на больших объемах данных, что позволяет им понимать и учитывать нюансы языка и культуры.

Почему ты решила строить карьеру в IT и заниматься машинным обучением?

Я пошла по стопам родителей: они окончили мехмат МГУ, вслед за ними я поступила на тот же факультет. Несмотря на искреннюю любовь к математике, я никогда не хотела быть тем ученым, который только доказывает теоремы на бумаге. На третьем курсе, пройдя серьезный отбор, я поступила в ШАД — Школу Анализа Данных Яндекса (бесплатная двухгодичная программа для тех, кто хочет углубиться в науку о данных и машинное обучение. — Прим. SRSLY). Там я увлеклась Machine Learning или ML, то есть машинным обучением, и поняла, что это как раз то, с чем я хочу связать свою жизнь. Эта профессия дает возможность делать то, о чем я всегда мечтала, — применять математику в прикладных вещах, приносить пользу. Так что выбору карьеры я обязана ШАДу.
  • Машинное обучение (ML) — это класс методов искусственного интеллекта, характерной чертой которых является не прямое решение задачи, а обучение на больших наборах данных, иллюстрирующих задачу, которую мы хотим решить. ML используется сейчас практически во всех сферах жизни, включая финансы, здравоохранение, транспорт и маркетинг. Оно позволяет автоматизировать процессы, улучшать качество услуг и повышать эффективность работы компаний.

#INSERT_ARTICLE#

Как дальше складывался твой путь?

В ШАДе я выбирала дисциплины, связанные с наукой о данных, машинным обучением и нейросетями. Эти знания, если посмотреть глобально, лежат в основе всех современных методов искусственного интеллекта.

Но больше всего меня увлекло то, что связано с работой с текстом — я заслушивалась курсом лингвистики и машинного перевода! Так я познакомилась с Natural Language Processing (NLP) или автоматической обработкой текстов. NLP-модели нужны для анализа и понимания текста, а также для создания или генерации текста. Они используются в различных приложениях, таких как голосовые помощники, машинный перевод, анализ текстов и даже поиск в любом поисковике.

Тогда еще никто и не представлял, что эти модели станут развиваться гигантскими шагами и привлекут столько внимания.
#INSERT_ARTICLE#

В 2016 году я попала на свою первую работу — сразу пошла в Сбер. Увидела вакансию на Дне карьеры в МГУ, откликнулась и так оказалась в команде, занимающейся ML. За много лет работы в компании я сменила несколько команд и сегодня работаю в R&D (Research and Development. — Прим. SRSLY) команде AGI NLP в SberDevices, где занимаюсь исследованиями в области больших языковых моделей. 

В каких самых классных проектах ты участвовала?

Я принимала участие в разработке нейросети mGPT, которая говорит на 61 языке, в том числе на языках стран СНГ и на языках малых народов России (например, бурятский и калмыцкий). То есть, по сути, с ее помощью можно генерировать тексты и решать все те NLP-задачи, про которые я упоминала выше, не на одном конкретном языке, а на любом из 61. Последнее особенно важно, поскольку для этих языков практически нет моделей, а необходимость автоматически обрабатывать тексты есть.

Еще один важный проект, в котором я участвовала, — MERA. Это основной русскоязычный бенчмарк сегодня. Бенчмарк — это своего рода набор экзаменов или тестов для языковых моделей, который помогает понять, насколько хорошо они справляются с задачами в тех или иных областях. Например, насколько хорошо такие модели умеют строить цепочки рассуждений, обладают ли они базовым здравым смыслом и знаниями о мире, хорошо ли пишут программный код и могут ли сдать экзамен по русскому языку или обыграть человека в игру «Что? Где? Когда?».

#INSERT_ARTICLE#

А как складывается твоя научная карьера?

Пойдя в аспирантуру, я не была уверена, что дойду до конца и у меня получится защитить диссертацию. Однако во время учебы в аспирантуре я перешла в свою текущую команду AGI NLP, где появилась возможность заниматься исследованиями в области языковых моделей, относящейся к области компьютерных наук. К моменту окончания аспирантуры у меня накопилось достаточно исследований и научных статей, чтобы я могла защититься. Дальше по сути оставалось лишь собрать все исследования воедино и пройти все формальные шаги. Последнее звучит просто, но на самом деле — это безумное количество всяких бумажек и бюрократических процедур вроде заполнения заявлений и подготовки всех документов по требованиям стандартов. Очень часто на этом этапе многие ломаются, но у меня включился азарт. Я сделала первый шаг в направлении защиты, а дальше было обидно бросать, и все как-то пошло.

Почему ты решила сама пойти преподавать?

Возможно, у меня это от родителей. Они оба преподаватели-профессоры: мама работает с инженерными науками, а папа — с математикой. С самого детства в доме я слышала, как родители говорят про преподавание, лекции, студентов. Мне это еще тогда казалось безумно интересным, а когда в аспирантуре попробовала сама учить студентов, поняла, что это мое. Мне интересно делиться опытом и рассказывать про те вещи, которые так захватывают меня, как ML и NLP, например.

Для меня это как психотерапия в каком-то смысле.

#INSERT_ARTICLE#

Если тебе что-то беспокоит, то во время занятий ты полностью погружаешься в процесс. Чувствовать отдачу и получать положительный фидбек от студентов — лучшая награда, которая заряжает, ради этого хочется преподавать.

Я очень люблю свою область, и мне искренне нравится рассказывать про то, чем я занимаюсь. Мне нравится делиться опытом и видеть, как люди вместе со мной влюбляются в машинное обучение и науку о данных.

Кстати, по этой же причине я завела свой телеграм-канал @mashkka_ds. Развиваясь как Data Scientist и как ученый, я все больше хотела делиться интересными и важными вещами из этой области. Меня очень вдохновляет, когда на разных мероприятиях я встречаю своих подписчиков, которые говорят, что любят мой канал и он им очень полезен. Уже ради этого уже стоит его вести!

#INSERT_ARTICLE#

Какие главные сложности и benefits ждут тех, кто хочет быть ML-специалистом? К чему ты готовишь своих студентов?

Область Data Science безумно быстро развивается, поэтому надо быть всегда готовым осваивать новое, даже после окончания учебы. Это не та сфера, где можно окончить вуз и больше ничему не учиться.

Даже если ты всего год не будешь следить за новостями и читать статьи, ты безнадежно устареешь. Для меня это скорее плюс, чем минус. Мне нравится оставаться в потоке и работать в той области, которая постоянно развивается, меняется день ото дня. Здесь можно каждый день узнавать новое, пробовать современные методы и модели. Это все очень круто, но надо быть готовым к постоянному обучению. Lifelong learning в Data Science — это наше все.

Помимо этого, нужно быть готовым адаптироваться. Никогда не знаешь, куда сейчас повернет мир современных технологий. Нет гарантии, что завтра не появится модель, которая изменит все, чем мы занимаемся. Из-за этого мне кажется, что те, кто сейчас оканчивает вузы, получают уникальную возможность встать у истоков больших изменений, заниматься наукой и видеть воплощение своей работы в масштабных проектах, меняющих жизни людей.

Как тебе удается совмещать работу, преподавание, постоянное обучение — и жизнь за пределами работы?

Все, что я делаю, мне искренне нравится.

У меня есть принцип — максимально отсекать все, к чему приходится себя принуждать.

#INSERT_ARTICLE#

Понятно, что не всегда все зависит от личного желания, но я все равно стараюсь находить варианты и способы выбрать то, к чему лежит душа. В преподавании, например, я беру только те курсы, которые мне нравятся.

Мне кажется, главная проблема, которую нужно решить для комфортной жизни, — это не нехватка времени, а нехватка энергии. Я нашла решение в постоянном «переключении картинки», то есть смене деятельности. Мои хобби: танцы, спорт, путешествия — все это дает мне силы. А еще я всегда стараюсь все делать заранее, а не в последний момент.

Куда мы движемся вместе с технологиями ИИ? 

Точный прогноз дать невозможно, потому что все меняется день ото дня, и даже крупные ученые не могут предугадать, как все сложится. Пока я могу сказать лишь про то, что меняется прямо сейчас.

Во-первых, с бешеной скоростью развивается видео. Появляются нейросети, которые очень классно генерируют видеоконтент. Мне кажется, скоро эта технология станет сильно доступнее и популярнее, и рано или поздно настанет тот час, когда мы будем покупать билет в кино на фильм, срежиссированный с помощью ИИ. Это про то, что технологии будут дополнять и усиливать творчество людей, помогать высвобождать время за счет того, что огромное количество рутинных операций можно будет отдать на аутсорс машине.

Во-вторых, что касается больших языковых моделей, они становятся сложнее, превращаются в мультимодальные и мультиагентные системы. То есть это системы, где есть не одна нейросеть, которая пишет тексты, а которые дают возможность работать как с текстами, так и с картинками, видео, звуком. Это означает, что скоро мы сможем задавать нейросети более сложные задания. Вместо «напиши сценарий видео» можно будет задать запрос «найди в онлайн-магазине по каталогу пять маек моего размера, которые подходят к моему гардеробу, и положи в корзину». Это весьма условный пример, но суть в том, что сегодня системы становятся все более сложными и могут выполнять сложносоставные задачи.

На какую сферу, по твоему мнению, последние изменения в ИИ влияют больше всего?

Мне кажется, это меняет вообще все сферы, где работа человека как-то связана с обработкой информации. Везде, где у нас есть общение, взаимодействие, текстовая информация, а также информация, связанная с картинками, потенциально мы можем применять нейронные сети. Люди начинают это делать, упрощая себе работу в каких-то рутинных задачах. Уверена, эту беседу тоже будет расшифровывать нейросеть.


Что бы ты посоветовала читателям SRSLY «неайтишникам» в плане освоения IT-навыков?

Могу сказать про свою область, про Data Science. Сейчас, к счастью, очень много возможностей войти в IT. Для этого даже не обязательно поступать в профильный вуз и учиться шесть лет, если такой возможности нет.

Если хочется по-настоящему глубоко погрузиться в Data Science, есть магистратуры по этому направлению. Я, например, преподаю в ВШЭ в онлайн-магистратуре Master of Data Science. Это можно совмещать с работой и семейными делами, и даже для человека, далекого от мира IT, это реальная возможность полноценно войти в область. Для тех, кто не планирует идти в магистратуру, есть много курсов, в том числе в онлайн-формате, где рассказывают и показывают все самое главное, что связано с нейросетями и миром Data Science в целом.

Время, за которое можно стать профессиональным Data Scientist, зависит от стартового уровня.
#INSERT_ARTICLE#

Те, у кого есть технический бэкграунд, знание высшей математики и навыки программирования, вполне могут получить основы на полугодовом курсе. Тем, кто готов погрузиться в индустрию глубоко и стать одним из создающих новые технологии, — подойдет обучение в ШАД. Тем, кто приходит в IT, например, из гуманитарных областей, нужно будет побольше времени. Но не стоит бояться, это интересный путь! Классно, что благодаря развитию образования в этой области сейчас многие могут узнать больше об IT. Достаточно захотеть и начать учиться — и вот вы уже понимаете, как устроена нейронная сеть, почему чат-бот отвечает на вопросы и как с их помощью решать разные задачи.

Какие у тебя сейчас профессиональные цели?

Никогда не ставлю себе конечных целей, потому что жизнь очень непредсказуема и изменчива. Мир может измениться в любой момент, и это в большей или меньшей степени поменяет привычную жизнь. Поэтому я задаю себе вектор, направление, куда я хочу идти, но не ставлю точку.

Мне очень нравится заниматься исследованиями в своей области, и я обожаю преподавать. Сейчас я не ищу каких-то радикальных изменений, хочется продолжать развиваться и совершенствоваться в том, что я делаю, брать новые интересные и амбициозные проекты.


photo : Ник Паустовский @nikpaustovskiy

style : Павел Бабак @pavelshnobel @styling_kit_

style assistant: Яна Гнусова @gn.yana

muah : Дарья Мезенцева @oldvvolna

art dir : Валерия Лехнер

бренды: NUW STORE, RENDEV-VOUS, BLIZHE


Реклама. ООО «Яндекс» | ERID: F7NfYUJCUneLtX7oEqfo

Подписывайтесь на наш Telegram-канал
* Деятельность компании Meta Platforms Inc. (Facebook и Instagram) на территории РФ запрещена
** Признан иноагентом на территории РФ
Читайте также
Музыка — 14:00, 12 сентября 2024
Сабрина — маленькая ведьма: каким получился шестой (!) альбом Карпентер Short N' Sweet?
Интервью — 12 сентября, 14:00
Зачем нейронкам фитнес-коуч? Старший разработчик Рома Горб — о пути в IT, патенте и искусстве промптинга
Новости, Новости — 12 сентября, 11:12
Ирина Старшенбаум и Петр Федоров на кадрах со съемок роуд-муви «Туда»
Музыка — 11 сентября, 21:50
Романтика, стекло и self-care. SRSLY-анкета nkeeei
Новости, Новости — 11 сентября, 13:40
У фотоателье автопортрета UU открылась флагманская студия в Москве
Новости, Новости — 11 сентября, 11:38
Чебатков, «Импровизаторы» и TIOT: «Фандом Фест» объявил программу
Новости, Новости — 10 сентября, 16:00
Linkin Park вернулись с новой солисткой и анонсами альбома и тура
Новости, Новости — 10 сентября, 13:33
Леди Гага работает над новым альбомом. Он выйдет в феврале
Новости, Новости — 10 сентября, 11:34
Имоджен Путс на кадре со съемок «Хронологии воды» — режиссерского дебюта Кристен Стюарт
Новости, Новости — 10 сентября, 10:07
Apple анонсировали новые модели iPhone, Apple Watch и AirPods
Новости, Новости — 9 сентября, 17:51
«Сегун» получил 14 наград «Эмми» и установил рекорд премии
Новости, Новости — 9 сентября, 15:50
Кендрик Ламар станет хедлайнером Супербоула-2025
Новости, Новости — 9 сентября, 13:42
«Комната по соседству» Альмодовара получила главный приз Венецианского кинофестиваля
Новости, Новости — 9 сентября, 11:28
Скорость и драйв: Thomas Mraz, Дэни и Boris Redwall выпустили сингл «Мото»
Новости, Новости — 7 сентября, 16:12
Глаза как полиграф: Call Me Karizma и Ekoh представили первый совместный трек
Новости, Новости — 6 сентября, 19:07
хмыров выпустил танцевальную версию песни «Луна»
Новости, Новости — 6 сентября, 17:06
Перестановка в мире моды: Хайдер Акерманн стал новым креативным директором Tom Ford
Образ жизни — 6 сентября, 13:47
«Рокки. Последний берег», «Я обязательно уволюсь», «Моя безупречная жизнь» и еще 9 книг, которые стоит искать на Московской международной книжной ярмарке 2024
Новости, Новости — 6 сентября, 13:31
Группа «Диктофон» выпустила альбом-триптих «Чутка, еще чутка — вот и все!»
Новости, Новости — 6 сентября, 11:13
Лирика и диско: Антоха МС и Баста дропнули фит «Серый пес»
Новости, Новости — 5 сентября, 14:30
«Во все тяжкие», «Атланта» и «Фарго»: Rolling Stone выбрал 100 лучших эпизодов сериалов
Образ жизни — 5 сентября, 12:38
Аня Покров, NANSI & SIDOROV, Алана Чочиева, Саша Новиков и Анриэль: школьные SRSLY-анкеты инфлюенсеров из «VK Клипов»
Все звёзды и инфлюенсеры
Новости, Новости — 5 сентября, 12:00
Дэвид Финчер снимет вестерн в духе «Непрощенного» Клинта Иствуда
Новости, Новости — 5 сентября, 09:53
Танцы, мистика и драма: Юлия Снигирь в первом трейлере сериала «Танго на осколках»
Новости, Новости — 4 сентября, 22:39
Смотрим на британский урбан в клипе Кассеты на трек «Голова»
Новости, Новости — 4 сентября, 17:14
В TikTok появились новые возможности для настройки рекомендаций
Новости, Новости — 3 сентября, 17:13
Дебют Мигеля как режиссера: начались съемки драмы «Искусство падения»
Новости, Новости — 3 сентября, 14:00
Настасья Самбурская сыграет Марину Мнишек во 2-м сезоне «Казачка»
Новости, Новости — 3 сентября, 11:29
Питт и Аффлек могут сыграть в ремейке «Незнакомцев в поезде» Финчера
Новости, Новости — 2 сентября, 19:31
«шалый» дропнул «Вспышку в ночи» — ремикс песни Никиты Малинина
Новости, Новости — 2 сентября, 16:30
Новые отношения и новый фит: Элджей и Anikv релизнули трек Sport
7.1
Собиратель душ
6.9
Максин: Три икса
9
Дом дракона
(2 сезон)
6
Ворон (2024)
8
Эмили в Париже
(4 сезон)
Бордерлендс
8.7
Майор Гром: Игра
7.9
Дэдпул и Росомаха