"Озеро данных". Зачем в России собираются слить всю обезличенную информацию в одну базу
Новый проспект
Статьи

"Озеро данных". Зачем в России собираются слить всю обезличенную информацию в одну базу

Прочитано: 700

Сейчас все данные, которые скапливаются у государственных ведомств, существуют в виде разрозненных отчетностей. Минцифры хочет объединить их в рамках автоматизированной интегрированной системы. После в планах цифрового регулятора создать дата-сервисы и использовать данные для анализа состояния отраслей экономики и социальной сферы. Ведомство хочет предоставлять такие сервисы разработчикам решений на основе искусственного интеллекта. Платно или безвозмездно, в ведомстве не уточняют.

Датасеты на очереди

Основной площадкой реализации национального озера данных будет ФГАУ НИИ «Восход». По словам его директора Максима Рымара, будут сформированы бизнес-процессы по подключению поставщиков данных к аналитическому хранилищу, организован полный цикл сбора, обработки, нормализации данных и их использования для решения прикладных бизнес-задач. В опытную эксплуатацию система будет запущена в 2023 году.

«Наборы обезличенных данных — основа для обучения алгоритмов искусственного интеллекта», — поясняет руководитель Департамента информационных технологий Москвы Эдуард Лысенко. Комитет месяц назад предложил бизнесу доступ к городским данным в обмен на актуальные AI-проекты. Как пример востребованных проектов, связанных с искусственным интеллектом (ИИ), в комитете приводят общегородской контакт-центр, где с 2021 года звонки обрабатывает робот.

В качестве датасетов (наборы данных) в Москве предлагают информацию о городских спортивных и культурных мероприятиях, которую можно использовать при создании новых сервисов для горожан, данные о дворах, контейнерных площадках, дорогах, других объектах городского хозяйства, информацию о состоянии атмосферного воздуха, воды и почвы, о движении и нагрузке транспорта и т. д.

По определению Роскомнадзора, обезличенные данные — это данные, хранимые в информационных системах в электронном виде, принадлежность которых конкретному субъекту персональных данных невозможно определить без дополнительной информации. Однако, например, Банк России видит ряд правовых пробелов в сфере оборота обезличенных данных именно из-за возможности восстановления этой самой дополнительной информации.

По словам исполнительного директора Ассоциации больших данных (АБД) Алексея Неймана, переход к статусу «безвозвратно обезличенных» данных, которые могут свободно использоваться бизнесом, не отрегулирован ни в нормативных документах, ни в технологических стандартах, а само регулирование аналитики на основе обезличенных данных в настоящее время находится в серой зоне, и компании ведут ее на свой страх и риск. В качестве примера Алексей Нейман приводит любой статистический отчет из 100 строк, который является результатом агрегации множества различных персональных транзакций и также по сути своего происхождения может считаться персональными данными. На сегодняшний день АБД и Академия криптографии проводят пилотное тестирование различных методов обезличивания и разработанных риск-методик, чтобы установить границы между обезличенными и персональными данными.

Важные данные

По мнению исполнительного директора IT-компании HFLabs Константина Степанова, реестр обезличенных данных потенциально может заинтересовать и госструктуры, и бизнес.

«Эти данные могут быть полезны, например, для разработки алгоритмов в медицинской сфере, скажем, для первичной диагностики заболеваний по снимку. В области Machine Learning, на мой взгляд, сейчас основная борьба идет именно за датасеты для машинного обучения, а не за алгоритмы. Алгоритмы для таких задач всем известны, основная сложность в том, чтобы найти готовый датасет или собрать хороший набор данных: без ошибок, большой и разнообразный. Это может стать главным барьером», — рассуждает Константин Степанов.

«Главный бенефициар, конечно, бизнес: у нас государственные органы создают и накапливают колоссальный объем данных, однако практически никак не позволяют проводить на нем научные исследования и тем более создавать коммерческие продукты и услуги в сфере цифровой экономики, — считает директор по развитию Webiomed Александр Гусев. — Например, только в отрасли здравоохранения медицинская организация средней руки может генерировать десятки терабайт данных в год, однако они недоступны ни для ученых, ни для разработчиков интеллектуальных систем. Если мы действительно хотим развивать у себя цифровую экономику, нужно поддерживать рост числа компаний и конкуренцию между ними, а для этого нужно создать контролируемый оборот обезличенных данных для их повторного использования».

Серый рынок

При этом текущее состояние рынка данных в России весьма расплывчато. По мнению Александра Гусева, рынок находится в начале своего формирования, и большей частью он имеет «серую» природу из-за регулирования со стороны 152-ФЗ и иных законодательных ограничений.

«Без наличия возможности понятно и законно получать пусть контролируемый, но все-таки доступ к большим данным мы будем терять массу возможностей для роста этого рынка», — уверен он. Это, в свою очередь, по словам эксперта, означает не только невозможность на самом деле контролировать денежные потоки рынка, но и существенно ограничивает приток инвестиционных частных денег на него, поскольку риски невозврата инвестиций без обеспечения прозрачности оборота данных и получения выручки от продуктов и услуг в этой сфере отпугивают инвестора.

«Большие компании пытаются внутри себя аккумулировать максимальное количество данных, иногда просто на всякий случай. Некоторые строят партнерства по обмену данными, и это, на мой взгляд, перспективное направление. Например, по данным операторов связи можно понять проходимость пространств. Это всегда интересно ретейлу для открытия новых точек», — говорит Константин Степанов.

В компании Platforma считают, что область применения геоаналитики гораздо шире. Оптимизировать сеть офисов и улучшить финансовые показатели может любой бизнес с физическими офисами: банки, ретейл, компании из сферы услуг, FMCG-производители и многие другие.

Обезличенные данные также позволяют бизнесу прогнозировать поток клиентов в каждой конкретной точке с учетом дневной, недельной и годовой сезонности, определять готовность проходящих мимо людей «купить чашку кофе» и т. д.

Большой куш

В прошлом году Минцифры предлагало обязать российские компании передавать государству персональные, но уже обезличенные данные россиян без их на то согласия как раз, чтобы использовать их для разработки различных сервисов искусственного интеллекта. Теперь регулятор говорит о мотивации бизнеса.

«В первую очередь запустим сервисы аналитики для IT и связи, — рассказал глава Минцифры Максут Шадаев. — Государство будет мотивировать бизнес предоставлять обезличенные данные по отдельным направлениям, которые критически важны для системы госуправления. Обмен данными будет двухсторонним: обезличенные данные государственных датасетов сможет использовать и бизнес для развития собственных решений».

Схемы такой мотивации пока также озвучены не были, при этом, как планирует регулятор, деперсонализация данных будет происходить на стороне их поставщиков, то есть того же бизнеса.

справка нового проспекта

По данным Центра компетенций Национальной технологической инициативы на базе МФТИ, объем рынка искусственного интеллекта в России по итогам 2021 года вырос на 28% и достиг 550 млрд рублей. Лидируют на рынке ИИ «Яндекс» с выручкой 209 млрд рублей и VK, выручка которого составила 57 млрд рублей. При этом 100 компаний (25% от  общего количества) занимают 98,5% рынка. Основным направлением их работы является как раз анализ данных (61,2%).

В МФТИ подсчитали, что в 2021 году в России было произведено 1,7 зеттабайта данных (зеттабайт равен секстиллиону байт или 1 073 741 824 Тб. — Прим. «НП»). Объем рынка больших данных эксперты оценивают в 46 млрд рублей в 2021 году.

IT цифровизация
Другие статьи автора Читайте также по теме
В России составили рейтинг стран, приоритетных для экспорта отечественных цифровых решений. Из 192 стран, входящих в ООН, подходящими для IT-сотрудничества оказались лишь пять.
От возможных негативных последствий работы искусственного интеллекта люди пока защищены плохо, считают участники конференции «Цифровая безопасность», прошедшей 3 апреля в КВЦ «Экспофорум» в рамках форума «ЭКСПОТЕХНОСТРАЖ-2024». Маркировку контента, произведенного ИИ, большинство из них назвало не лучшей идеей
03.04.2024
3 апреля в Экспофоруме открылась Выставка передовых технологий обеспечения безопасности личности, общества и государства «ЭКСПОТЕХНОСТРАЖ. День передовых технологий». Она проходит уже третий год. Впечатлениями от мероприятия поделились вице-губернатор Петербурга Станислав Казарин и гендиректор «ЭкспоФорум-Интернэшнл» Сергей Воронков.
03.04.2024

Сергей Воронков обратился к Владимиру Путину. Конгрессно-выставочная отрасль получит поддержку
25.04.2024
В ЗакСе представили кандидатов на звание «Почетный гражданин Санкт-Петербурга»
25.04.2024
"АвтоВАЗ" работает над внедрением беспилотных систем в Lada
25.04.2024
Путин подтвердил свой визит в Китай в мае
25.04.2024
Прокуратура выявила нарушения сроков реконструкции набережной реки Фонтанки
25.04.2024
В России массовые спам-звонки запретят законодательно
25.04.2024
Коммунальных аварий станет меньше, если все участники процесса ответственно подойдут к делу
25.04.2024
Фармацевтическая компания «Вертекс» с начала года инвестировала в развитие бизнеса в Петербурге 400 млн рублей
25.04.2024
Коррозии не будет, если использовать российские покрытия
25.04.2024
В отрасль ЖКХ будет привлечено более 1 трлн рублей
25.04.2024
«Кингисеппский машиностроительный завод» будет производить литые лопатки газовых турбин
25.04.2024
Идея строительства 10 плавучих домов в Галерной гавани Петербурга вызвала интерес прокуратуры
25.04.2024
Путин: безработица в России держится ниже 3%
25.04.2024
Верным курсом: вектор развития энергетической отрасли определит дискуссия
25.04.2024
Петербургский завод «Биокад» создал первый в истории препарат для лечения болезни Бехтерева
25.04.2024
Российский бизнес бренда Hugo Boss купит сеть гипермаркетов «Стокманн»
25.04.2024
Компания «Абсолют Строй Сервис» вложит 10 млрд рублей в новый проект в Ленобласти
25.04.2024
Новым президентом девелоперской группы «Эталон» стал Михаил Бузулуцкий
25.04.2024
Девелопер Setl Group собрал 270 кг гуманитарной помощи для жертв наводнения в Оренбуржье
25.04.2024
Торговая сеть «Лента» открывает в Петербурге и Ленобласти магазины нового формата «Вингараж»
25.04.2024
Будущий судебный квартал в Петербурге получил градплан
25.04.2024
В «Левашовском хлебозаводе» откроется выставка в честь классика авангардной фотографии Александра Родченко
25.04.2024
Летом в Петербурге откроется караоке-бар Григория Лепса
25.04.2024
Девелопер LEGENDA дебютировал на рынке «зеленого» проектного финансирования
25.04.2024
Водэн
VEREN
RBI
Строительный трест
InveStoreClub
РосСтройИнвест
РКС
Решение
Прайм Эдвайс
Питер
Петрополь
Петромир
Pen&Paper
Neva Coffee
Первая мебельная
Пепелаев
RRT
Colliers
Ильюшихин
Илоранта
Календарь событий

Метки