Zero Block
Click "Block Editor" to enter the edit mode. Use layers, shapes and customize adaptability. Everything is in your hands.
Tilda Publishing
create your own block from scratch
В экспертной части исследования приняли участие эксперты из разных компаний и университетов ― Яндекса, «Сбера», Т-Банка, VK, Wildberries, Рокет Контрол, CodeScoring и МФТИ. Мы спрашивали их о том, какие проекты они используют сами; о компаниях лидерах; о проблемах и историях успеха; про то, что есть и чего не хватает; про актуальное состояние и перспективы опенсорса в эпоху ИИ.

Среди экспертов, принявших участие в опросе:
  • Максим Савченко

    Сбер, Управляющий директор, руководитель Центра инструментов машинного обучения Лаборатории AI

  • Сергей Бережной

    Яндекс, Директор по взаимодействию с разработчиками

  • Александр Чиков

    Т-Банк, Тимлид

  • Юрий Кацер

    Рокет Контрол, DS team lead

  • Александр Сидоров

    Wildberries, Head of Data Science

  • Александр Волынский

    VK, Технический менеджер Cloud ML Platform, архитектор VK Cloud

  • Алексей Смирнов

    CodeScoring, Founder & CEO

  • Александр Нозик

    МФТИ, Директор центра научного программирования

На основе этих данных мы сформулировали основные выводы, составили рейтинг наиболее используемых проектов в каждой из категорий и сформировали перечень компаний компаний-лидеров в области опенсорса для ML/Data.
Вторая часть исследования основана на автоматизированном анализе открытых репозиториев с кодом, ссылок на них, информации о пользователях, участвовавших в работе на проектах. Упор мы делали на платформу GitHub.
Основные инсайты по итогам исследования
Почти все компании-разработчики открытых решений в Data/ML цепляется не только на внутренний, но и на международный рынок. Аналогично с пользователями - используется то, что лучше работает, а не то, что сделано в конкретной стране.
которые реально используются в технологическом стеке крупных компаний и частных пользователей. Их авторы - как “бигтех” (здесь в качестве лидера можно признать Яндекс), так и небольшие команды, в том числе академические (здесь объективно сильные позиции у ИТМО - про это мы уже писали в предыдущем исследовании).
Публикации моделей, данных и бенчмарков - не менее важное дело, и многие активно используемые датасеты создаются российскими компаниями.
Использование публичных API GitHub-а позволяет собрать много интересных данных - кто, где и когда использует открытые проекты.
В России создается много сильных открытых инструментов
Опенсорс - не российский, а общий
Опенсорс - это не только про код.
В компаниях есть множество энтузиастов опенсорса
Продвигать свои проекты - сложно
Несмотря на наличие большого числа конференций и митапов, многих форматов и площадок не хватает. Есть и проблемы с квалификацией потенциальных участников открытых проектов. Здесь могут помочь университеты и их студенты - опыт их участия в разработке опенсорса обычно позитивный.
которые продвигают свои идеи и участвуют в развитии своих и чужих проектов. Однако, сильно не хватает системности и поддержки (в том числе и схем монетизации).
Мнения экспертов по различным аспектам опенсорса в Data и ML
Среди них можно выделить и реализации конкретных моделей машинного обучения (например, SciKit Learn) или фреймворки для «сборки» своих моделей ― например, PyTorch и Tensorflow в случае нейронных сетей. AutoML-решения применяются не столько широко, но про сами инструменты (например, проект LightAutoML) многие знают.
Используемый в России опенсорс
Как правило, используются хорошо себя зарекомендовавшие numpy и SciPy. Для часто встречающейся постановки задачи оптимизации ― настройки гиперпараметров ― обычно применяют optuna.
Область математического обеспечения довольно консервативна
В ML-инструментарии почти все используемые решения опенсорсные.
Индустриальный стэк в DS/ML уже сформировался и довольно стандартен
Где-то для обработки данных хватает Pandas, а где-то необходимо обратиться к Spark или ytsaurus. Схожая ситуация с хранением данных ― широко используется ClickHouse, но и другие БД находят активное применения в стеке различных компаний.
Используемые инфраструктурные решения сильно зависят от конкретных приложений
Это открытые библиотеки и фреймворки от различных создателей, которые используются по всему миру ― все знают про CatBoost и Clickhouse, про PyTorch и Hadoop. В компаниях активно используются также «самописные» закрытые решения и форки открытых проектов.
Визуализация данных обычно обсуждается мало, хотя и там активно применяются открытые решения ― например, DataLens.
(например, MLFlow и kubeflow), то сфера LLMOps сейчас бурно развивается (хотя далеко не все пользователи и компании успели с ней познакомиться на практике). Безусловный лидер здесь ― LangChain, однако появление новых подходов (например, агентных LLM) и новых моделей требует создания новых инструментов, которые в подавляющем большинстве случаев являются опенсорсными.
Если MLOps ― достаточно сложившаяся область и стандартный инструментарий для неей уже сформировался
(покрытие ей функциональности, уровень проработки и актуальность), поддержка (бизнес готов и на платную поддержку, но не всегда авторы проектов готовы ее обеспечить), совместимость с корпоративными системами и платформами.

Основные проблемы при использование опенсорса и их решения
Часто выделяемые недостатки открытых проектов ― документация
У создателей и пользователей открытых инструментов часто возникают противоречия в требованиях к реализации
― и это может блокировать совместную работу над проектом. Корпорациям нужно одно (например, повышение масштабируемости решений на большие объемы данных или вычислительные ресурсы), сообществу индивидуальных пользователей ― другое ( удобная установка на одиночные ПК, хорошая производительность на слабых системах и так далее).
Митапы, семинары, сообщество
С одной стороны, мероприятий много, но с другой ― не хватает «сложных», технических форматов для подготовленных слушателей
которые позволяют вникнуть в детали или представить свои решения. Во многом это связано с недостатком квалифицированных специалистов в целом и с недостаточным масштабом внутреннего рынка.
О ключевых игроках опенсорса в России
Среди корпораций к “ключевым игрокам” чаще всего относят - Яндекс, Сбер, Т-Банк, VK; среди академической среды - ИТМО, Сколтех, ВШЭ, AIRI.
Работающие на международном рынке компании упоминают реже. Однако, опенсорс достаточно разнороден: свой вклад вносят все, от компаний-гигантов до авторов небольших проектов.
Текущее состояние опенсорс-среды в России















(все сильно завязано на конкретных энтузиастах). Сотрудникам компаний трудно продвигать идеи выноса части корпоративного кода в опенсорс, обосновывать финансирование этого направления и его пользу для имиджа компании. Новые проекты тяжело развиваются и популяризируются - недостаточно мероприятий, программ поддержки, грантов, каналом для привлечения пользователей и участников проектов.
Текущее состояние опенсорс-среды в России
(например, инженерных) в сочетании с навыками разработки ПО. Не всегда хватает разработческого опыта и специалистам в ML/DS.
Среди контрибьюторов часто не хватает сочетания “предметных” компетенций
С другой стороны - не хватает масштаба и системности
Есть много позитивных тенденций, растет число участников опенсорс-движения - как в сообществе в целом, так и на уровне компаний.
Есть развитая культура открытого кода, моделей и данных. Опенсорс-сообщество в России в ML в значительной степени интегрировано в общемировое, его представители участвуют в развитии многих открытых проектов.
Платформы














Перспективы опенсорса на ближайшие несколько лет