Золотое дно цифровых болот

Сможет ли российский бизнес превратить большие данные в капитал

В 2025 году объем корпоративных данных в России вырос на 15–20%, многие компании оперируют объемами данных от 500 до 1000 ТБ, но эффективно используется пока небольшая доля этой информации. Остальное же превращается в так называемые темные данные со сложной структурой, которые требуют затрат на хранение и организацию, но не приносят прибыли. На фоне дефицита инфраструктуры и бума ИИ, для обучения которого требуется только качественная информация, перед компаниями встает вопрос, как начать зарабатывать на архивах, пока стоимость их хранения не превысила ценность.

Фото: Getty Images

Фото: Getty Images

От «цифровых болот» к «цифровым озерам»

В 2025 году в России был утвержден национальный проект «Экономика данных», который предполагает, что данные фактически становятся новым топливом для развития отраслей. Уже сейчас среднегодовой темп роста рынка цифровых данных в России (CAGR), по оценке аналитиков Б1 и TAdviser, составляет около 20–21%, а в отдельных сегментах (например, AI-платформы) достигает 33–35%. По предварительной оценке, в прошлом году рынок достиг 520 млрд руб. Суммарный вклад технологий работы с данными в ВВП России за последние пять лет оценивается в 3,4 трлн руб. К 2030 году этот показатель может достичь 10,5–14,5 трлн руб.

Динамика рынка также приводит к пересмотру отношения компаний к данным как таковым. Долгое время концепция Data Lake («озер данных») подавалась бизнесу как панацея: «Собирайте все, потом разберемся». В итоге к началу 2026 года многие компании обнаружили себя обладателями Data Swamp — «цифровых болот», где просто хранятся терабайты информации. По оценке Ассоциации больших данных, объем корпоративной информации в РФ в 2025-м вырос на 15%, однако эффективно используется не более 10–20% этих массивов. Остальное — так называемые темные данные (Dark Data).

В период 2014–2017 годов компании массово накапливали данные, сохраняли все, надеясь, что они когда-нибудь принесут «суперценность», но вместе с объемами росла и сложность структуры данных. В итоге пришло понимание, что бессистемное накопление бессмысленно, объясняет гендиректор DataCatalog (входит в группу Arenadata) Иван Новоселов. Данные копятся, хранятся, но найти нужную информацию вовремя невозможно из-за огромного объема, нет понимания, для решения каких бизнес-задач используются те или иные данные, в результате они лежат мертвым грузом и не используются для анализа, говорит он.

Чтобы «болото» снова стало «озером», необходима инвентаризация данных, рассказывает Иван Новоселов: внедрение комплексного подхода управления данными Data Governance, инструментов их каталогизации, объединения технического взгляда с бизнес-смыслом. «Необходимо разделение данных на «холодные» (архив, к которому не требуется оперативный доступ), «теплые» и «горячие» (данные, которые задействованы в бизнес-процессах) — это поможет оптимизировать стоимость владения за счет "железа" разной стоимости»,— добавляет эксперт.

Стратегия монетизации

Бизнес отходит от концепции внедрения Big Data ради внедрения, говорят эксперты: тренд — точечная монетизация данных. Так, например, в банковской сфере идет переход к предугадыванию потребностей и защите клиента на основе поведенческих данных. Т-Банк и ВТБ, например, используют предиктивные модели не просто для рассылки пуш-уведомлений, а для прогнозирования жизненных событий клиента: от покупки квартиры до рождения ребенка, предлагая продукты в момент возникновения потребности.

В ритейле X5 Group выстраивают «цифровой фундамент», где данные объединяют логистику, онлайн-проектирование и программы лояльности в единый контур. «У нас ИИ-модели обучаются на больших массивах исторических и потоковых данных и применяются для предиктивной аналитики, рекомендательных систем, ИИ-аналитики инцидентов, компьютерного зрения для контроля операций, а также в пилотах ИИ чат-ботов. При этом BI-аналитика по-прежнему выполняет роль «спидометра» бизнеса, но основная ценность данных все чаще реализуется напрямую в ИИ-решениях. В результате цифровые архивы перестают быть пассивным хранилищем, превращаясь в актив, который повышает эффективность бизнеса»,— отметил директор по управлению данными X5 Group Тигран Саркисов.

«Рив Гош» (входит в ГК Wildberries & Russ) Big Data помогает в персонализации маркетинга и других направлениях, рассказал глава направления DWH & BI компании Антон Илюшин: «В персонализации маркетинга это дает практичные вещи — мы имеем возможность быстрее формировать понятные сегменты клиентов (RFM-анализ), настраивать персональные рекомендации и предложения. Помимо маркетинга, Big Data помогает прогнозировать спрос по товарным категориям и магазинам, поддерживая необходимый уровень сервиса, анализировать эффективность цен и уровень каннибализации продаж при проведении акций».

В ЦИАН большие данные лежат в основе сервисов аналитики, говорит руководитель направления платформы данных ЦИАН Алена Катренко: «Все модели машинного обучения используют информацию из гибридного хранилища. Благодаря этим технологиям компания может формировать персонализированные рекомендации для клиентов и эффективнее модерировать контент. Мы внедрили проверку фото на наличие запрещенного правилами нашего сервиса данных (фотографий людей, номеров телефона на фото и т. д.)». Также решения позволяют компании обеспечить качественную бизнес-аналитику — на их основе формируются ежедневные отчеты, обрабатываются специальные запросы от бизнеса.

Данность для ИИ

В 2025–2026 годах данные окончательно перестали быть просто «цифровым следом», превратившись в топливо для LLM (больших языковых моделей). Технологические гиганты, такие как OpenAI и Google, ведут активную борьбу за высококачественные данные, необходимые для обучения своих языковых моделей. Они заключают крупные сделки с платформами, подобными Reddit, и новостными агентствами, стремясь получить доступ к обширным массивам текстовой информации.

Однако качественных данных на рынке уже не хватает, отмечают в MTS AI: эффективность обучения нейросети напрямую зависит от объема доступной ей информации, и чем сложнее модель, тем больше данных требуется для ее качественного обучения. «Представьте, что мы уже использовали все данные из интернета для обучения модели. Что делать дальше, чтобы создать еще более умную модель? Сегодня многие тексты в интернете тоже создаются нейросетями, но обучение на таких данных делает модель похожей на предыдущую»,— отмечают в компании.

В 2026 году все чаще говорят об обучении ИИ на искусственно сгенерированных данных. Но синтетические данные генерируются одной моделью, а затем на них учатся другие модели, и это часто приводит к накоплению ошибок и ухудшению итогового результата по сравнению с реальными данными, объясняет директор по исследованиям и разработкам ООО «Убик» (группа Arenadata) Петр Емельянов: «Может сработать принцип "Garbage in — Garbage out" ("мусор на входе — мусор на выходе"). Качество данных критично для корректной работы моделей. Кроме того, даже случайно сгенерированные синтетические данные могут совпасть с реальными (например, случайный набор цифр совпадает с реальным номером паспорта), что создает правовую неопределенность».

Сейчас основная технологическая гонка сместилась из области «у кого модель мощнее» в область «у кого данные чище, лучше структурированы, лучше организованы», добавляет Петр Емельянов. Без выстроенных процессов Data Governance и автоматизированного контроля качества данных использование продвинутого ИИ (включая агентов) становится невозможным, убежден он.

Чтобы снизить риски нарушения конфиденциальности персональных и других чувствительных данных, некоторые компании начинают использовать механизмы безопасного совместного использования данных, где алгоритм обучается на массиве, «не видя» самих персональных данных, рассказывает Петр Емельянов. Речь идет о технологии конфиденциальных вычислений, которая позволяет обучать модель на данных нескольких участников (например, трех банков) без того, чтобы участники видели данные друг друга.

Жизнь после Oracle

С 2022 года вопрос «где хранить и как обрабатывать» приобрел политический окрас. Массовый исход западных вендоров (Oracle, SAP, Teradata) заставил бизнес ускорить миграцию на отечественные платформы. По разным оценкам, бизнесу для перехода требуется два-три года, а затраты на него составляют миллиарды рублей.

В Центре стратегических разработок (ЦСР) переход с иностранных решений на отечественные платформы оценивают как устойчивый, но неравномерный по сложности. «Типовые задачи давно реализуются быстро и массово, в то время как «тяжелые» и критические нагрузки мигрируют поэтапно и заметно дольше. Ключевые драйверы внедрения отечественных продуктов — санкционные и операционные риски поддержки зарубежных решений, запрос на технологическую устойчивость и рост зрелости отечественных экосистем»,— рассказывает замгендиректора ЦСР Екатерина Кваша. Тормозит процесс перехода, по ее мнению, большое количество legacy-архитектур, на которые завязаны ключевые бизнес-процессы, и необходимость глобально перестраивать процессы управления данными.

По оценке ЦСР, рынок систем управления и анализа данных в 2025 году составил 103 млрд руб., а в 2026-м может достигнуть 119 млрд руб. По итогам 2025-го публичные игроки показывают сохранение спроса и планомерный рост год к году, добавляет Екатерина Кваша: «Так, "Группа Астра" показала рост выручки на 22% за девять месяцев 2025 года и рост отгрузок по итогам 2025-го на 9%. По итогам 2025 года выручка Группы Arenadata увеличилась на 46% год к году».

В 2026 году данные окончательно закрепятся в статусе нематериального актива, напрямую влияющего на капитализацию, а инвесторы будут оценивать не только выручку, но и цифровую зрелость — способность компании быстро превращать данные в информацию, а информацию — в управленческие решения, уверен Иван Новоселов. По его мнению, в силу экономической ситуации на рынке будут наиболее востребованы решения, позволяющие достигать измеримых результатов при разумной стоимости владения данными. «Вендоры же, в свою очередь, будут фокусироваться не столько на покупке компаний (M&A), как раньше, сколько на технологических альянсах и партнерствах»,— добавил он.

Светлана Бодрова