Росстат начнет считать инфляцию на основе «миллионов» цен
Вместо ручного сбора алгоритмы будут обрабатывать данные онлайн-кассРосстат готовит переход на новый порядок расчета потребительской инфляции, который объединит большие данные от контрольно-кассовой техники (ККТ) и технологии искусственного интеллекта. Об этом говорится в датированной 17 ноября презентации замруководителя Росстата по цифровой трансформации Григория Остапенко, которая есть в распоряжении РБК.
В Росстате РБК подтвердили подлинность документа, указав, что предварительные оценки индекса потребительских цен (ИПЦ), рассчитанного с помощью ККТ, планируется получить уже в 2021 году. О перспективах использования онлайн-данных ККТ для более точного расчета инфляции чиновники впервые заговорили в 2018 году.
«Миллионы» ценовых котировок
Сейчас более 1 тыс. сотрудников Росстата в регионах вручную собирают данные о ценах для расчета инфляции. Ежемесячно обследуются около 400 товаров и примерно 120 услуг, собираются 700 тыс. ценовых котировок. При новом методе количество ценовых котировок увеличится «до максимально возможного» — нескольких миллионов, следует из презентации. Охват товаров, за которыми ведется наблюдение, увеличится до 1 тыс. С помощью веб-скрейпинга (технологии извлечения онлайн-данных) Росстат начнет агрегировать данные ККТ о стоимости товаров в кассовых товарных чеках.
Впрочем, сейчас есть препятствие: фискальные данные от Федеральной налоговой службы (ФНС) поступают в Росстат в обезличенном виде (в чеках, например, отсутствует информация о торговой точке и ее адресе). Поэтому понадобится внесение изменений в ст. 102 Налогового кодекса («Налоговая тайна»), чтобы ФНС могла передавать в Росстат первичные данные транзакций. Однако это не значит, что Росстат получит доступ к персонифицированным данным о покупателях: ведомству нужна только информация, где будет идентифицирована торговая точка, следует из презентации.
Поправки в статью о налоговой тайне должен инициировать Минфин совместно с ФНС. РБК направил запросы в министерство и налоговую службу. Представитель Росстата подчеркивает, что работа над расчетом индекса потребительских цен с помощью ККТ ведется совместно с ФНС.
Пресс-служба ФНС ответила РБК, что в августе 2020 года был подписан совместный приказ ФНС и Росстата, устанавливающий передачу первичных деперсонифицированных данных ККТ, содержащихся в кассовых чеках, в Росстат по согласованному перечню реквизитов. «В настоящее время в соответствии с нормами действующего законодательства передача данных из документов, формируемых контрольно-кассовой техникой, в Росстат возможна по перечню, утвержденному указанным приказом ФНС России и Росстата», — сообщили в налоговой службе. Из документа следует, что передаче подлежат данные, включающие цену за единицу товара с учетом скидок и наценок, но не реквизиты торговой точки. Однако «данные передаются с возможностью агрегирования по месту нахождения ККТ по городам/районам, по субъектам Российской Федерации», указано в приказе.
Росстату нужны данные хотя бы с указанием населенного пункта, чтобы обеспечить репрезентативность выборки, отличить сельскую местность от городской. «В ряде случаев для этого будет достаточно указания в чеке не конкретного адреса, а региона, названия населенного пункта», — сказал РБК главный экономист «ПФ Капитал» Евгений Надоршин. Гипотетически данные ККТ могут позволить перейти от выборки к генеральной совокупности, но это возможно только в случае, если во все населенные пункты России проведут нормальную связь, добавил он.
Изменится ли официальная инфляция
В 2016–2019 годах ФНС осуществила масштабную реформу по переводу бизнеса на онлайн-кассы. «Мы [теперь] можем видеть все, что покупается где-либо в России», — говорил редактору Financial Times в прошлом году бывший глава ФНС, ныне премьер-министр Михаил Мишустин. И продемонстрировал ему, как цифровая система ФНС за считаные секунды получила сведения о том, за какую цену журналист выпил кофе в отеле предыдущим вечером.
Фискальные данные ФНС, на основе которых Росстат собирается считать инфляцию, относятся к так называемым административным данным. Переход к расчету инфляции по административным данным — один из приоритетных проектов Росстата, говорил в интервью РБК в июне 2020 года глава Росстата Павел Малков. В настоящее время ни одна из стран не перешла на расчет индекса потребительских цен исключительно на основе административных данных — для обследования цен в любом случае продолжает использоваться ручной труд, говорится в презентации Росстата.
В 2020 году Росстат провел эксперимент по интеграции ручного сбора данных и машинного анализа данных ККТ. Степень совпадения цен на отдельные товары, полученных в рамках эксперимента от ККТ и сотрудников Росстата, составила 95%. Например, средняя цена молока, по данным Росстата, составила 58,23 руб., а по данным ККТ — 56,35 руб. Таким образом, можно предположить, что в результате применения нового подхода публикуемые показатели инфляции могут хоть и незначительно, но поменяться. Официальная инфляция всегда зависит от деталей методологии, выборки обследуемых товаров и т.д. Например, в США за последние 20 лет методология расчета потребительских цен пересматривалась несколько раз, в результате чего заявленная инфляция стала ниже, чем была бы без этих изменений методики.
Однако в Росстате подчеркнули, что «использование новых методов и инструментов сбора данных не влияет на методологию оценки индекса потребительских цен». «Сама методика расчета ИПЦ не меняется», — заявили в пресс-службе ведомства. Как изменятся данные о ценах в результате новых расчетов — вырастет или упадет инфляция, — сейчас сказать невозможно, указывает Надоршин.
Нейросети и возможности для бизнеса
Росстат ставит цель довести долю товаров, цены на которые определяются через данные ККТ, до 90% при расчете инфляции. На финансирование проекта понадобится дополнительно 100 млн руб.
Возможно, Росстат, по крайней мере на первых порах, задействует гибридную методику расчета: автоматически будет получать данные от крупных сетей, а в ручном режиме — от малого и среднего бизнеса, рынков, где традиционно велики продажи всерую мимо кассы, из малых населенных пунктов, где плохая связь и не работают онлайн-кассы, предположил Надоршин.
Для машинной обработки кассовых данных будет применяться технология нейронных сетей Open Neural Network Exchange (открытая библиотека ПО для построения нейронных сетей глубокого обучения). Фискальные данные ФНС — неструктурированные, объяснял Малков в интервью РБК. «Если вы сделаете одинаковые закупки в трех разных магазинах и посмотрите в чек, то один и тот же товар будет записан по-разному. Эти данные надо научиться описывать и структурировать. <...> Поэтому для расчета индекса потребительских цен необходимо эти данные получить, разобрать, разнести по разным товарам, работам и услугам», — говорил он. Система должна, в частности, уметь искать товары по лексическим вариантам наименований и группировать нужные позиции в увязке со справочником товаров и услуг Росстата, следует из презентации.
Нейросети обрабатывают данные с ККТ и классифицируют товары в чеках по категориям (например, «хлеб ржаной»), после чего данные об объемах продаж и ценах товаров могут использоваться для расчета индекса потребительских цен, объяснил РБК директор по аналитике и алгоритмам oneFactor Максим Воеводский. Он отмечает, что составление таких классификаторов — трудоемкий процесс, «особенно когда номенклатура измеряется тысячами позиций, формируется сторонними поставщиками и постоянно меняется». «Сотрудники называют каждый раз товар по-разному, допускают ошибки, сокращают длинные названия. Все это усложняет анализ продаж в разрезе товарных групп, понимание эффективности маркетинговых акций, а порой делает это вообще невозможным, справиться с таким массивом данных может только нейросеть, и точность ее классификации товаров и услуг выше 95%», — говорит Воеводский.
«Колоссальная проблема» для Росстата будет в том, как распознать тот или иной товар или услугу в чеках, полагает Надоршин. Единого регламента того, как товар должен быть указан в чеке, не существует: один и тот же товар в чеках разных магазинов может быть указан в штуках, по весу, аббревиатурой или по названию производителя. «Основная задача Росстата будет в том, как весь этот мусор отфильтровать», — указал эксперт. Власти могут попытаться договориться с крупными торговыми сетями о стандартизации названий основных товаров или присвоить им цифровые коды, предположил он.
Массивы ценовых данных, сгруппированных по параметрам «регион», «городской округ», «товарная группа», «наименование товара», «стоимость» и т.д., Росстат планирует размещать в открытом доступе. Ведомство рассчитывает, что такие наборы данных будут востребованы у бизнеса. Сейчас торговые сети и производители товаров повседневного потребления тратят ежегодно «сотни миллионов долларов» на аналитику по ценам и аудит товаров на полках, говорится в презентации Росстата. За счет предоставления общедоступных данных по ценам на потребительские товары на еженедельной основе стоимость «добычи» ценовых данных для бизнеса снизится, уверяет Росстат. Кроме того, будут сформированы актуальные региональные потребительские корзины, которые позволят лучше понимать структуру потребления в том или ином регионе.
В конечном счете более полный и точный расчет инфляции поможет повысить доверие к официальной статистике, заявляет Росстат в презентации.
Вызовы для Росстата
Использование альтернативных источников данных отвечает трендам современной мировой статистики, сказал РБК главный экономист «ВТБ Капитал» Александр Исаков. «Мысль достаточна простая: сегодня мы можем и должны дополнить традиционные способы сбора данных новыми — такими, которые будут дешевле и быстрее», — комментирует он.
Использование данных ККТ позволит, во-первых, качественно увеличить количество наблюдаемых цен для тех товаров, которые Росстат отслеживает сегодня, а возможно, и количество населенных пунктов, в которых они фиксируются, говорит Исаков. Во-вторых — уточнить структуру потребления, на которой основаны веса и расчет общего индекса инфляции.
«Последнее крайне важно в условиях, когда структура потребления меняется быстро, как сегодня: у многих значительно снизились расходы на транспорт, поездки и услуги предприятий общественного питания, а расходы на продовольствие, медикаменты, те же маски выросли», — рассуждает экономист.
Однако Росстату предстоит обеспечить определенную «консервативность» при переходе на данные ККТ — требуется повысить надежность, но не изменить природу индекса. Например, ККТ не всегда фиксирует общедоступную цену товара — фактическая оплата может отличаться за счет использования бонусов, специальных скидок, клубных карт и т.д. — и эти эффекты еще предстоит научиться находить и исключать, подчеркивает эксперт.