"Озеро данных". Зачем в России собираются слить всю обезличенную информацию в одну базу

Сейчас все данные, которые скапливаются у государственных ведомств, существуют в виде разрозненных отчетностей. Минцифры хочет объединить их в рамках автоматизированной интегрированной системы. После в планах цифрового регулятора создать дата-сервисы и использовать данные для анализа состояния отраслей экономики и социальной сферы. Ведомство хочет предоставлять такие сервисы разработчикам решений на основе искусственного интеллекта. Платно или безвозмездно, в ведомстве не уточняют.

Датасеты на очереди

Основной площадкой реализации национального озера данных будет ФГАУ НИИ «Восход». По словам его директора Максима Рымара, будут сформированы бизнес-процессы по подключению поставщиков данных к аналитическому хранилищу, организован полный цикл сбора, обработки, нормализации данных и их использования для решения прикладных бизнес-задач. В опытную эксплуатацию система будет запущена в 2023 году.

«Наборы обезличенных данных — основа для обучения алгоритмов искусственного интеллекта», — поясняет руководитель Департамента информационных технологий Москвы Эдуард Лысенко. Комитет месяц назад предложил бизнесу доступ к городским данным в обмен на актуальные AI-проекты. Как пример востребованных проектов, связанных с искусственным интеллектом (ИИ), в комитете приводят общегородской контакт-центр, где с 2021 года звонки обрабатывает робот.

В качестве датасетов (наборы данных) в Москве предлагают информацию о городских спортивных и культурных мероприятиях, которую можно использовать при создании новых сервисов для горожан, данные о дворах, контейнерных площадках, дорогах, других объектах городского хозяйства, информацию о состоянии атмосферного воздуха, воды и почвы, о движении и нагрузке транспорта и т. д.

По определению Роскомнадзора, обезличенные данные — это данные, хранимые в информационных системах в электронном виде, принадлежность которых конкретному субъекту персональных данных невозможно определить без дополнительной информации. Однако, например, Банк России видит ряд правовых пробелов в сфере оборота обезличенных данных именно из-за возможности восстановления этой самой дополнительной информации.

По словам исполнительного директора Ассоциации больших данных (АБД) Алексея Неймана, переход к статусу «безвозвратно обезличенных» данных, которые могут свободно использоваться бизнесом, не отрегулирован ни в нормативных документах, ни в технологических стандартах, а само регулирование аналитики на основе обезличенных данных в настоящее время находится в серой зоне, и компании ведут ее на свой страх и риск. В качестве примера Алексей Нейман приводит любой статистический отчет из 100 строк, который является результатом агрегации множества различных персональных транзакций и также по сути своего происхождения может считаться персональными данными. На сегодняшний день АБД и Академия криптографии проводят пилотное тестирование различных методов обезличивания и разработанных риск-методик, чтобы установить границы между обезличенными и персональными данными.

Важные данные

По мнению исполнительного директора IT-компании HFLabs Константина Степанова, реестр обезличенных данных потенциально может заинтересовать и госструктуры, и бизнес.

«Эти данные могут быть полезны, например, для разработки алгоритмов в медицинской сфере, скажем, для первичной диагностики заболеваний по снимку. В области Machine Learning, на мой взгляд, сейчас основная борьба идет именно за датасеты для машинного обучения, а не за алгоритмы. Алгоритмы для таких задач всем известны, основная сложность в том, чтобы найти готовый датасет или собрать хороший набор данных: без ошибок, большой и разнообразный. Это может стать главным барьером», — рассуждает Константин Степанов.

«Главный бенефициар, конечно, бизнес: у нас государственные органы создают и накапливают колоссальный объем данных, однако практически никак не позволяют проводить на нем научные исследования и тем более создавать коммерческие продукты и услуги в сфере цифровой экономики, — считает директор по развитию Webiomed Александр Гусев. — Например, только в отрасли здравоохранения медицинская организация средней руки может генерировать десятки терабайт данных в год, однако они недоступны ни для ученых, ни для разработчиков интеллектуальных систем. Если мы действительно хотим развивать у себя цифровую экономику, нужно поддерживать рост числа компаний и конкуренцию между ними, а для этого нужно создать контролируемый оборот обезличенных данных для их повторного использования».

Серый рынок

При этом текущее состояние рынка данных в России весьма расплывчато. По мнению Александра Гусева, рынок находится в начале своего формирования, и большей частью он имеет «серую» природу из-за регулирования со стороны 152-ФЗ и иных законодательных ограничений.

«Без наличия возможности понятно и законно получать пусть контролируемый, но все-таки доступ к большим данным мы будем терять массу возможностей для роста этого рынка», — уверен он. Это, в свою очередь, по словам эксперта, означает не только невозможность на самом деле контролировать денежные потоки рынка, но и существенно ограничивает приток инвестиционных частных денег на него, поскольку риски невозврата инвестиций без обеспечения прозрачности оборота данных и получения выручки от продуктов и услуг в этой сфере отпугивают инвестора.

«Большие компании пытаются внутри себя аккумулировать максимальное количество данных, иногда просто на всякий случай. Некоторые строят партнерства по обмену данными, и это, на мой взгляд, перспективное направление. Например, по данным операторов связи можно понять проходимость пространств. Это всегда интересно ретейлу для открытия новых точек», — говорит Константин Степанов.

В компании Platforma считают, что область применения геоаналитики гораздо шире. Оптимизировать сеть офисов и улучшить финансовые показатели может любой бизнес с физическими офисами: банки, ретейл, компании из сферы услуг, FMCG-производители и многие другие.

Обезличенные данные также позволяют бизнесу прогнозировать поток клиентов в каждой конкретной точке с учетом дневной, недельной и годовой сезонности, определять готовность проходящих мимо людей «купить чашку кофе» и т. д.

Большой куш

В прошлом году Минцифры предлагало обязать российские компании передавать государству персональные, но уже обезличенные данные россиян без их на то согласия как раз, чтобы использовать их для разработки различных сервисов искусственного интеллекта. Теперь регулятор говорит о мотивации бизнеса.

«В первую очередь запустим сервисы аналитики для IT и связи, — рассказал глава Минцифры Максут Шадаев. — Государство будет мотивировать бизнес предоставлять обезличенные данные по отдельным направлениям, которые критически важны для системы госуправления. Обмен данными будет двухсторонним: обезличенные данные государственных датасетов сможет использовать и бизнес для развития собственных решений».

Схемы такой мотивации пока также озвучены не были, при этом, как планирует регулятор, деперсонализация данных будет происходить на стороне их поставщиков, то есть того же бизнеса.

СПРАВКА НОВОГО ПРОСПЕКТА
?

По данным Центра компетенций Национальной технологической инициативы на базе МФТИ, объем рынка искусственного интеллекта в России по итогам 2021 года вырос на 28% и достиг 550 млрд рублей. Лидируют на рынке ИИ «Яндекс» с выручкой 209 млрд рублей и VK, выручка которого составила 57 млрд рублей. При этом 100 компаний (25% от  общего количества) занимают 98,5% рынка. Основным направлением их работы является как раз анализ данных (61,2%).

В МФТИ подсчитали, что в 2021 году в России было произведено 1,7 зеттабайта данных (зеттабайт равен секстиллиону байт или 1 073 741 824 Тб. — Прим. «НП»). Объем рынка больших данных эксперты оценивают в 46 млрд рублей в 2021 году.

Подписывайтесь на наш канал в Telegram и читайте новости раньше всех!
Актуально сегодня