"Озеро данных". Зачем в России собираются слить всю обезличенную информацию в одну базу
Новый проспект
Статьи

"Озеро данных". Зачем в России собираются слить всю обезличенную информацию в одну базу

Прочитано: 305

Сейчас все данные, которые скапливаются у государственных ведомств, существуют в виде разрозненных отчетностей. Минцифры хочет объединить их в рамках автоматизированной интегрированной системы. После в планах цифрового регулятора создать дата-сервисы и использовать данные для анализа состояния отраслей экономики и социальной сферы. Ведомство хочет предоставлять такие сервисы разработчикам решений на основе искусственного интеллекта. Платно или безвозмездно, в ведомстве не уточняют.

Датасеты на очереди

Основной площадкой реализации национального озера данных будет ФГАУ НИИ «Восход». По словам его директора Максима Рымара, будут сформированы бизнес-процессы по подключению поставщиков данных к аналитическому хранилищу, организован полный цикл сбора, обработки, нормализации данных и их использования для решения прикладных бизнес-задач. В опытную эксплуатацию система будет запущена в 2023 году.

«Наборы обезличенных данных — основа для обучения алгоритмов искусственного интеллекта», — поясняет руководитель Департамента информационных технологий Москвы Эдуард Лысенко. Комитет месяц назад предложил бизнесу доступ к городским данным в обмен на актуальные AI-проекты. Как пример востребованных проектов, связанных с искусственным интеллектом (ИИ), в комитете приводят общегородской контакт-центр, где с 2021 года звонки обрабатывает робот.

В качестве датасетов (наборы данных) в Москве предлагают информацию о городских спортивных и культурных мероприятиях, которую можно использовать при создании новых сервисов для горожан, данные о дворах, контейнерных площадках, дорогах, других объектах городского хозяйства, информацию о состоянии атмосферного воздуха, воды и почвы, о движении и нагрузке транспорта и т. д.

По определению Роскомнадзора, обезличенные данные — это данные, хранимые в информационных системах в электронном виде, принадлежность которых конкретному субъекту персональных данных невозможно определить без дополнительной информации. Однако, например, Банк России видит ряд правовых пробелов в сфере оборота обезличенных данных именно из-за возможности восстановления этой самой дополнительной информации.

По словам исполнительного директора Ассоциации больших данных (АБД) Алексея Неймана, переход к статусу «безвозвратно обезличенных» данных, которые могут свободно использоваться бизнесом, не отрегулирован ни в нормативных документах, ни в технологических стандартах, а само регулирование аналитики на основе обезличенных данных в настоящее время находится в серой зоне, и компании ведут ее на свой страх и риск. В качестве примера Алексей Нейман приводит любой статистический отчет из 100 строк, который является результатом агрегации множества различных персональных транзакций и также по сути своего происхождения может считаться персональными данными. На сегодняшний день АБД и Академия криптографии проводят пилотное тестирование различных методов обезличивания и разработанных риск-методик, чтобы установить границы между обезличенными и персональными данными.

Важные данные

По мнению исполнительного директора IT-компании HFLabs Константина Степанова, реестр обезличенных данных потенциально может заинтересовать и госструктуры, и бизнес.

«Эти данные могут быть полезны, например, для разработки алгоритмов в медицинской сфере, скажем, для первичной диагностики заболеваний по снимку. В области Machine Learning, на мой взгляд, сейчас основная борьба идет именно за датасеты для машинного обучения, а не за алгоритмы. Алгоритмы для таких задач всем известны, основная сложность в том, чтобы найти готовый датасет или собрать хороший набор данных: без ошибок, большой и разнообразный. Это может стать главным барьером», — рассуждает Константин Степанов.

«Главный бенефициар, конечно, бизнес: у нас государственные органы создают и накапливают колоссальный объем данных, однако практически никак не позволяют проводить на нем научные исследования и тем более создавать коммерческие продукты и услуги в сфере цифровой экономики, — считает директор по развитию Webiomed Александр Гусев. — Например, только в отрасли здравоохранения медицинская организация средней руки может генерировать десятки терабайт данных в год, однако они недоступны ни для ученых, ни для разработчиков интеллектуальных систем. Если мы действительно хотим развивать у себя цифровую экономику, нужно поддерживать рост числа компаний и конкуренцию между ними, а для этого нужно создать контролируемый оборот обезличенных данных для их повторного использования».

Серый рынок

При этом текущее состояние рынка данных в России весьма расплывчато. По мнению Александра Гусева, рынок находится в начале своего формирования, и большей частью он имеет «серую» природу из-за регулирования со стороны 152-ФЗ и иных законодательных ограничений.

«Без наличия возможности понятно и законно получать пусть контролируемый, но все-таки доступ к большим данным мы будем терять массу возможностей для роста этого рынка», — уверен он. Это, в свою очередь, по словам эксперта, означает не только невозможность на самом деле контролировать денежные потоки рынка, но и существенно ограничивает приток инвестиционных частных денег на него, поскольку риски невозврата инвестиций без обеспечения прозрачности оборота данных и получения выручки от продуктов и услуг в этой сфере отпугивают инвестора.

«Большие компании пытаются внутри себя аккумулировать максимальное количество данных, иногда просто на всякий случай. Некоторые строят партнерства по обмену данными, и это, на мой взгляд, перспективное направление. Например, по данным операторов связи можно понять проходимость пространств. Это всегда интересно ретейлу для открытия новых точек», — говорит Константин Степанов.

В компании Platforma считают, что область применения геоаналитики гораздо шире. Оптимизировать сеть офисов и улучшить финансовые показатели может любой бизнес с физическими офисами: банки, ретейл, компании из сферы услуг, FMCG-производители и многие другие.

Обезличенные данные также позволяют бизнесу прогнозировать поток клиентов в каждой конкретной точке с учетом дневной, недельной и годовой сезонности, определять готовность проходящих мимо людей «купить чашку кофе» и т. д.

Большой куш

В прошлом году Минцифры предлагало обязать российские компании передавать государству персональные, но уже обезличенные данные россиян без их на то согласия как раз, чтобы использовать их для разработки различных сервисов искусственного интеллекта. Теперь регулятор говорит о мотивации бизнеса.

«В первую очередь запустим сервисы аналитики для IT и связи, — рассказал глава Минцифры Максут Шадаев. — Государство будет мотивировать бизнес предоставлять обезличенные данные по отдельным направлениям, которые критически важны для системы госуправления. Обмен данными будет двухсторонним: обезличенные данные государственных датасетов сможет использовать и бизнес для развития собственных решений».

Схемы такой мотивации пока также озвучены не были, при этом, как планирует регулятор, деперсонализация данных будет происходить на стороне их поставщиков, то есть того же бизнеса.

справка нового проспекта

По данным Центра компетенций Национальной технологической инициативы на базе МФТИ, объем рынка искусственного интеллекта в России по итогам 2021 года вырос на 28% и достиг 550 млрд рублей. Лидируют на рынке ИИ «Яндекс» с выручкой 209 млрд рублей и VK, выручка которого составила 57 млрд рублей. При этом 100 компаний (25% от  общего количества) занимают 98,5% рынка. Основным направлением их работы является как раз анализ данных (61,2%).

В МФТИ подсчитали, что в 2021 году в России было произведено 1,7 зеттабайта данных (зеттабайт равен секстиллиону байт или 1 073 741 824 Тб. — Прим. «НП»). Объем рынка больших данных эксперты оценивают в 46 млрд рублей в 2021 году.

IT цифровизация
Другие статьи автора Читайте также по теме
Многие владельцы сайтов могут получить претензии о разглашении персональных данных. Использование загружаемых шрифтов позволяет корпорации Google из-за границы собирать сведения о посетителях. Созданный в Германии прецедент уже привел к массовому вымогательству. Эхо этого дела может докатиться и до России.
Банк России хочет, чтобы в биржевых торгах участвовали цифровые финансовые активы (ЦФА). Свою идею регулятор описал в докладе "Развитие рынка цифровых активов в России". Согласно этому документу, скоро оцифровать (превратить в токены) можно будет любые биржевые активы.
билайн бизнес запускает новую услугу «беспроводной энергомониторинг». Решение создано командами IoT* и M2M** в партнерстве с ООО «Электронные энергетические технологии». С этой системой руководство всегда в курсе, где и как работает оборудование и контролирует производственную дисциплину в онлайн-режиме.
27.10.2022

Путин: "Необходимости для государства в дополнительной мобилизации нет никакой"
07.12.2022
Апелляция оставила в силе приговор Ивану Сафронову по делу о госизмене
07.12.2022
Опрос: треть россиян встретят Новый год дома перед телевизором
07.12.2022
За год книги в Петербурге подорожали на 20%
07.12.2022
Фонтанку, Мойку и канал Грибоедова передадут в федеральное ведение
07.12.2022
В Петербурге пройдет XX Форум субъектов малого и среднего предпринимательства
07.12.2022
Телеканал "Дождь"* завтра прекратит вещание не только в Латвии, но и в Литве
07.12.2022
Ресторанный оператор AmRest продаст бизнес KFC в России за 100 млн евро
07.12.2022
Журнал Time назвал Зеленского человеком года и выпустил обложку с его портретом
07.12.2022
Ученые СПбГУ и эксперты Эрмитажа изучили растения в произведениях музейного искусства
07.12.2022
Петербург выделил 1,8 млрд рублей на строительство нового архивного комплекса
07.12.2022
Frank Media: ВТБ договорился об условиях покупки "Открытия"
07.12.2022
Экоактивисты облили краской театр "Ла Скала"
07.12.2022
Дефицит бюджета Ленобласти на 2023 год составит почти 12 млрд рублей
07.12.2022
Россия вошла в пятерку стран с самой высокой скоростью распространения ВИЧ-инфекции
07.12.2022
Глава IATA: Западу нужно готовиться к возобновлению полетов через РФ
07.12.2022
Россия 9 декабря созовет заседание Совбеза ООН по западным поставкам оружия на Украину
07.12.2022
В России хотят создать реестр запрещённых видеоигр
07.12.2022
Петербург и Ленобласть отремонтируют более 80 дачных дорог в 2023 году
07.12.2022
Петербургский бренд косметики Levrana откроет производство в Сербии
07.12.2022
Водэн
VEREN
RBI
Строительный трест
InveStoreClub
РосСтройИнвест
РКС
Решение
Прайм Эдвайс
Питер
Петрополь
Петромир
Pen&Paper
Neva Coffee
Первая мебельная
Пепелаев
RRT
Colliers
Ильюшихин
Илоранта
Календарь событий

Метки