Использование ML/Data-опенсорса в России
Проанализировали решения, инструменты и их применимость.
Выделили главных игроков, обозначили проблемы и перспективы.
$ git add
main {

}
<script>

$ git switch
<script>

Photographer
Об исследовании
Авторы исследования ― представители сообщества разработчиков и пользователей открытого научного кода в ИТМО.

Мы создаем свои открытые решения и помогаем создавать и популяризировать опенсорс-решения другим, проводим профильные мероприятия и предоставляем полезные материалы. В составе сообщества около 1000 участников.

Большинство из них уже в нашем телеграм-чате. Здесь также можно связаться с нами и задать любые вопросы по исследованию.
Кто мы?
Авторы исследования ― сотрудники центра «Сильный ИИ в промышленности» ИТМО. Нам есть что сказать о создании ПО с открытым кодом в сферах ИИ/ML/DS и его применении в реальных проектах. С нашим участием в университете сформировалось крупнейшее в России академическое опенсорс-сообщество. Поэтому мы решили поделиться своим опытом и сделать «авторское» исследование. Вместе с тем, мы опираемся на мнения топовых экспертов и количественные метрики.
Несмотря на широкое использование опенсорс-решений в Data/ML в целом, многие специалисты знакомы только с привычным для их области стэком. Поэтому мы решили сделать консолидированный обзор используемых решений в различным категориях, с помощью которого можно сориентироваться в основных инструментах.
ИИ меняет правила в опенсорсе: новые инструменты позволяют создавать решения быстрее и дешевле, это трансформирует существующие практики. Поэтому мы не только поговорили с экспертами о текущем положении дел, но попробовали сформировать прогноз развития области на ближайшие пару лет.
  • Николай Никитин

    к.т.н, лидер сообщества ITMO.OpenSource

  • Андрей Гетманов

    опенсорс-энтузиаст, исследователь в области LLM и AutoML

  • Ирина Деева

    к.ф.м.н, руководитель проекта по развитию открытого кода на факультете ФЦТ

  • Юрий Каминский

    аспирант, исследователь в области LLM, руководитель студенческого опенсорсного клуба

  • Кирилл Федорин

    Cтудент ИТМО

  • Иван Рубин

    Cтудент ИТМО

  • Алексей Пицур

    UX UI Дизайнер

Общепринятой таксономии внутри ML/Data нет, поэтому мы ориентировались на мнения экспертов и укрупненные теги репозиториев на GitHub. Чтобы было понятнее, для каждой категории дали пояснение и несколько примеров. В них мы подобрали представителей разных «уровней» опенсорса ― от разработок гигантских корпораций до академических решений и успешных пет-проектов.
Инструменты ML и AutoML
Инструменты для обучения моделей МО и сборки их в пайплайны (вручную и автоматические).
Яндекс
Сбер
ИТМО
Сообщество
Microsoft
AMAZON
Математическое обеспечение
То, что называют Scientific Computing, ― реализации алгоритмов для работы с данными и моделями
Сообщество
МФТИ
AIRI
Яндекс
RAPIDS
NVIDIA
Инфраструктура
Решения для обработки данных и запуска моделей в конкретном окружении (например, распределенном)
Platform V
Cбер
YTsaurus
Яндекс
Hadoop
Apache
Spark
Apache
Визуализация и BI
Инструментарий для майнинга, визуализации и аналитики данных и таящихся в них зависимостей
Сообщество
Polars
Metabase
Яндекс
Apache
greenplum
Yandex
Хранение данных

Базы данных всех видов и сортов
Сообщество
Tarantool
ClickHouse
Яндекс
Tinkoff
MongoDB Inc
MLOps и LLMOps
Всё, что помогает нам «приземлять» методы и модели ИИ в реальных проекты
LangChain
lmware-ai
Cбер
Начинающим пользователям ML/Data-решений, которые хотят узнать о используемых на практике инструментах;
Авторам собственных открытых проектов, которые ищут лучшие практики их популяризации;
Опытным и начинающим контрибьюторам в опенсорс, которые ищут информацию об интересных проектах для участия;
Опенсорс-энтузиастам, которые хотят иметь представление о структуре опенсорс-сообщества.
Опенсорс - не российский, а общий. Почти все компании-разработчики открытых решений в Data/ML цепляется не только на внутренний, но и на международный рынок. Аналогично с пользователями - используется то, что лучше работает, а не то, что сделано в конкретной стране.
Использование публичных API GitHub-а позволяет собрать много интересных данных - кто, где и когда использует открытые проекты.
В России создается много сильных открытых инструментов, которые реально используются в технологическом стеке крупных компаний и частных пользователей. Их авторы - как “бигтех” (здесь в качестве лидера можно признать Яндекс), так и небольшие команды, в том числе академические (здесь объективно сильные позиции у ИТМО - про это мы уже писали в предыдущем исследовании).
Спойлер
В компаниях (и не только) есть множество энтузиастов опенсорса, продвигающих свои идеи и участвующих в развитии своих и чужих проектов. Однако, сильно не хватает системности и поддержки (в том числе и схем монетизации).
Опенсорс - это не только про код. Публикации моделей, данных и бенчмарков - не менее важное дело, и многие активно используемые датасеты создаются российскими компаниями.
Продвигать свои проекты - сложно. Несмотря на наличие большого числа конференций и митапов, многих форматов и площадок не хватает. Есть и проблемы с квалификацией потенциальных участников открытых проектов. Здесь могут помочь университеты и их студенты - опыт их участия в разработке опенсорса обычно позитивный.
Выводы
Какие компании - в лидерах?
Среди основных российских разработчиков, которые занимаются созданием своих открытых решений или являются контрибюторами в опенсорс (в сфере Data/ML), упомянутых экспертами и обладающих сильными позициями по результатам анализа открытых данных, мы можем выделить:
Яндекс
Сбер
Evrone
1
2
3
4
5
Тинькофф
Postgres Pro
VK
10
9
8
7
6
Avito
MTS
Selectel
Академия
Университеты и институты
Яндекс определяется как лидер благодаря нескольким факторам:
Большое количество активно развивающихся open-source проектов, охватывающих все тематические категории в области Data/ML. Проекты включают в себя открытые модели и данные;
Лучшие показатели используемости этих проектов в России по сравнению с другими российскими компаниями. Это подтверждается как информацией от экспертов, так и открытыми данными (звёздами, форками, скачиваниями и т. д.). Особенно выделяется CatBoost, который активно используется как в России, так и во всём мире;
Высокий уровень качества реализации репозиториев, большое количество контрибьюторов и их высокая активность;
Участие в развитии сообщества через организацию мероприятий в сфере open-source и грантовых программ для поддержки независимых разработчиков.
Конечно, этот список также не претендует на полноту - в контрибьюторами опенсорс-проектов в Росии является огромное число компаний и частных лиц.
Какие проекты используются?
Любой «ТОП» всегда условен и вызывает много споров. Выбирая для более детального анализа проекты ниже, мы ориентировались как на мнения экспертов по используемости в российских компаниях, так и на результаты автоматизированного анализа репозиториев. Мы выделили ТОП-5 используемых в РФ решений по каждой категории.
ML и алгоритмы
CatBoost
LightAutoML
PyTorch
Sklearn
Tensorflow
Математика
Numpy
Optuna
SciPy
Theano
Statsmodels
Инфраструктура
YTsaurus
Spark
Hadoop
Pandas
Caffe
Визуализация и BI
Metabase
SuperSet
DataLens
Matplotlib
Plotly
Хранение данных
Odyssey
Tarantool
Postgres
ClickHouse
YDB
MLOps
LangChain
Kubeflow
MLflow
Wandb
GigaChain
Как сделать свои проекты используемыми?
Максим Савченко
Мы активно взаимодействуем с научно-исследовательскими группами в области машинного обучения, совместно разрабатывая новые методы и алгоритмы для последующей имплементации в наши библиотеки. Также проводим НИОКР с коллективами компьютерных наук для доработки самих библиотек и разрабатываем обучающие курсы по нашим технологиям.
Управляющий директор, руководитель Центра инструментов машинного обучения Лаборатории AI
Что работает
Сотрудничество с сильными командами разработчиков, имеющими опыт системной разработки и занимающимися развитием платформ, куда внедряются наши библиотеки, приносит значительные результаты.
Мы активно привлекаем стажеров и начинающих специалистов из ведущих технических вузов к развитию библиотек. Командные и технологические проекты, которые студенты могут решать в рамках учебного процесса, вызывают интерес, особенно если они сопровождаются менторингом со стороны опытных разработчиков.
Системная работа с молодежью
Коллаборация внутри компании
Сотрудничество с университетами
Техномаркетинг на таких платформах, как GitHub, не только повышает нашу видимость, но и приносит багрепорты, пулл-реквесты, а также идеи и советы по развитию технологий от серьезных специалистов, включая экспертов из крупных технологических компаний в Силиконовой долине. Иногда это помогает нам находить кадры на международном рынке труда.
Продвижение на международных технологических площадках
Что не работает
Публикации на таких платформах, как VC и Habr, не приносят ожидаемого эффекта.
За полтора года ни одно мероприятие не позволило нам найти хотя бы одного помощника или энтузиаста, даже на возмездной основе. Мы предлагали гранты с гибкими условиями, но интереса это не вызвало.
Системная разработка не является сильной стороной интеграторов, что затрудняет наше сотрудничество с ними.
Привлечение интеграторов
Работа только с российским сообществом
Публикации на русскоязычных ресурсах
Максим Савченко
Управляющий директор, руководитель Центра инструментов машинного обучения Лаборатории AI
Как привлекать пользователей?
Также играют важную роль в подтверждении нашей экспертизы.
Которые представляют оригинальные научные исследования уровня A*, и включение нашего продукта в бенчмарки служат дополнительным подтверждением нашей ценности.

Однако статьи на Habr, vc.ru и в других СМИ почти не оказывают заметного эффекта.
Статьи
Победы в крупных соревнованиях
Kaggle
От уважаемых блогеров, а также заметки в топах блогов и на платформах вроде TechCrunch также способствуют нашему продвижению.

Размеры российского рынка остаются маргинальными по сравнению с западным, а количество носителей английского языка способствует более эффективному маркетингу.
Активность на Stack Overflow
митап, посвященный временным рядам, на который приглашаем представителей сообщества поделиться своими проектами. Мы также представляем информацию о нашей библиотеке и связанных с ней инициативах.
Александр Чиков
Т-Банк, Тимлид
Наш опыт привлечения пользователей
в которых обсуждаем различные особенности и возможности нашей библиотеки.
Пишем статьи на платформах Habr и Medium
Каждый год организуем Time Series MeetUP
Активно участвуем в различных конференциях