Среди них можно выделить и реализации конкретных моделей машинного обучения (например, SciKit Learn) или фреймворки для «сборки» своих моделей ― например, PyTorch и Tensorflow в случае нейронных сетей. AutoML-решения применяются не столько широко, но про сами инструменты (например, проект LightAutoML) многие знают.
Используемый в России опенсорс
Как правило, используются хорошо себя зарекомендовавшие numpy и SciPy. Для часто встречающейся постановки задачи оптимизации ― настройки гиперпараметров ― обычно применяют optuna.
Область математического обеспечения довольно консервативна
В ML-инструментарии почти все используемые решения опенсорсные.
Индустриальный стэк в DS/ML уже сформировался и довольно стандартен
Где-то для обработки данных хватает Pandas, а где-то необходимо обратиться к Spark или ytsaurus. Схожая ситуация с хранением данных ― широко используется ClickHouse, но и другие БД находят активное применения в стеке различных компаний.
Используемые инфраструктурные решения сильно зависят от конкретных приложений
Это открытые библиотеки и фреймворки от различных создателей, которые используются по всему миру ― все знают про CatBoost и Clickhouse, про PyTorch и Hadoop. В компаниях активно используются также «самописные» закрытые решения и форки открытых проектов.
Визуализация данных обычно обсуждается мало, хотя и там активно применяются открытые решения ― например, DataLens.
(например, MLFlow и kubeflow), то сфера LLMOps сейчас бурно развивается (хотя далеко не все пользователи и компании успели с ней познакомиться на практике). Безусловный лидер здесь ― LangChain, однако появление новых подходов (например, агентных LLM) и новых моделей требует создания новых инструментов, которые в подавляющем большинстве случаев являются опенсорсными.
Если MLOps ― достаточно сложившаяся область и стандартный инструментарий для неей уже сформировался