La combinación de ciencia de datos con modelos de aprendizaje automático abre nuevas posibilidades para estudiar fenómenos económicos valiéndose de metodologías más amplias.
Tradicionalmente, el trabajo de medición que refleja las circunstancias económicas de un país, región o sector en un momento determinado, suele estar limitado a la hora de obtener y analizar datos. Esta tarea se restringe al uso de relevamientos estadísticos como censos o encuestas por muestreo o a métodos estadísticos clásicos, que suelen ser escasos para el volumen y variedad de datos disponibles.
Aun así, las Ciencias Económicas no están ajenas a la revolución de big data (más allá de cierta resistencia que se encuentra en utilizar ciencia de datos en la economía y las ciencias sociales en general) y parecen haber encontrado nuevas perspectivas en la virtual explosión de datos, provenientes de dispositivos interconectados y del comercio electrónico.
En este punto, la ciencia de datos ofrece innumerables oportunidades para complementar los análisis clásicos en temas claves como: el aumento de precios al consumidor, el costo de vida o la medición de pobreza, y requiere enfoques estadísticos y modelos de regresión cada vez más novedosos.
Una de estas posibles tareas, propias del científico de datos, reside en mejorar las estimaciones de inflación -entendida como el aumento generalizado en los precios de los bienes y servicios de una economía durante un período determinado-, estudiándola desde tantas perspectivas como sea posible, generando modelos de análisis y combinando diferentes pronósticos con niveles de confianza posibles, para alcanzar una visión más consolidada. Claramente no hay una métrica unificada que describa o mida exhaustivamente todos los aspectos de la inflación, por lo que se debe indagar desde diferentes ángulos.
En este sentido, un primer desafío está en la definición de la inflación y el control de precios. Tal es así que verificar los precios de los bienes y servicios es crucial para determinar el costo de vida en un país.
El enfoque tradicional, usado por las oficinas gubernamentales de estadística, se basa en definir una canasta de productos, diseñar un complejo mecanismo de muestreo y relevar una gran cantidad de precios tanto en negocios pequeños como en supermercados. Los precios constatados, luego se sistematizan y se agregan con el fin de producir un índice de precios representativo de una región y un período. Se trata de una tarea muy costosa y engorrosa desde lo operativo.
Comúnmente, existe tanto un índice de precios al consumidor como un índice de precios al productor, que incluyen diferentes canastas de productos. A su vez, esas canastas se pueden clasificar tanto con productos básicos como no básicos.
Tanto los índices de precios mayoristas como el costo de la construcción de viviendas, son indicadores adicionales para medir la inflación y monitorear los diferentes tipos de precios, especialmente en Argentina, donde existen numerosas variables consideradas (a ello se suma la Encuesta Permanente de Hogares como mecanismo básico para medir el nivel socio-económico y el desempleo).
A partir de la proliferación de los precios online, los cuáles suelen variar mucho más rápido que los de las tiendas físicas y, habitualmente, no son considerados por los organismos oficiales, surge el problema del volumen y la variedad de los datos (ya que el monitoreo de precios no se restringiría sólo a un conjunto mínimo de productos como proponen los organismos estatales).
Entonces, un segundo desafío sería construir estos indicadores en base a datos online y de aquellos reportados por los propios consumidores, y no sólo considerar a las tiendas como fuentes oficiales.
¿Cómo pueden la ciencia de datos y los modelos de aprendizaje automático contribuir a mejorar o bien robustecer estas mediciones? A continuación, algunos ejemplos globales.
Casos productivos
El primer ejemplo que va en la dirección propuesta es el proyecto del Instituto de Tecnología de Massachusetts (MIT) para la construcción de índices de precios con información tomada de internet, método usualmente denominado como web scrapping.
El proyecto Billion Prices Project construye índices simulando lo que haría un consumidor con una computadora conectada a la web: buscar precios en tiendas online. Un software extrae los precios, los sistematiza, los agrega y construye el índice. Este procedimiento evita el complejo sistema de muestreo implementado en el método tradicional. Además, proporciona resultados inmediatos y registra sus cambios a medida que se producen (tiempo real).
De este modo, permite conocer la evolución del costo de vida en distintas regiones y períodos, en forma rápida y con la frecuencia que se desee, un fenómeno impensado anteriormente sin la ciencia de datos.
El segundo ejemplo reside en el esfuerzo de diversos organismos gubernamentales y entidades para incorporar técnicas de big data a sus mediciones. En esta dirección, la división de estadísticas United Nations ESCAP ha estado argumentando durante los últimos años a favor del uso de estas fuentes alternativas para ser incluidas en las estadísticas oficiales, lo que debido a la pandemia se volvió más prominente.
En Estados Unidos, la Oficina de Estadísticas Laborales (The Bureau of Labour statistics) estuvo elaborando mediciones con fuentes de datos alternativas, como el uso de datos de vendedores minoristas, que resulta más oportuno y ahorra costos.
Por otra parte, los autores japoneses Abe y Shinozaki realizaron un estudio clave donde demostraron que los datos alternativos de los precios de las materias primas de varios sitios web comparativos, pueden brindar mayor precisión que una encuesta tradicional. Y esta misma idea comienza a ser considerada por algunos países en desarrollo, que no cuentan con capacidades o recursos para realizar mediciones tradicionales. El Banco de Armenia, por ejemplo, comenzó con la iniciativa de complementar datos oficiales con big data.
Y el tercer y último ejemplo tiene que ver con la medición de la pobreza en Ruanda, un país afectado por múltiples factores que lo colocan entre los más pobres del mundo y donde la tarea de realizar encuestas oficiales excede su capacidad como país.
Un artículo publicado por académicos estadounidenses en la revista Science presenta un nuevo enfoque en el campo de la ciencia de datos para encarar la medición de la pobreza de los habitantes de Ruanda. Los autores trabajaron con datos de una pequeña encuesta sobre consumo y con información acerca de la intensidad de uso de teléfonos celulares, y diseñaron un modelo matemático que relaciona esos datos.
Luego de un largo proceso de evaluación y ajustes de la capacidad predictiva del modelo, lo utilizaron para extrapolar dicha información y predecir el nivel de pobreza en todas las regiones del país. La elección del modelo se basó en el aprendizaje automático, un proceso por el cual un algoritmo computacional selecciona la modalidad óptima de predicción sobre la base de algún criterio estadístico. Cabe aclarar que sólo se trató de cuantificar y pronosticar la pobreza en ese país, pero no de encontrar explicaciones para entender sus causas.
¿Hacia una medición y control colaborativo?
Con la proliferación de aplicaciones y la apertura de datos públicos, claramente surgen innumerables oportunidades de aprovechar esos datos para el control ciudadano, especialmente en temas sensibles como el de los precios de la canasta básica.
Desde la plataforma argentina Datos.Gob.Ar se ponen al alcance ciertos datos abiertos para poder utilizarlos, modificarlos y compartirlos. Un ejemplo que puede encontrarse es el índice de precios en diferentes provincias. Más allá de esto, se necesitan conocimientos específicos para el manejo de esta información, que usualmente no es “traducida” para un público lego.
No obstante, el potencial reside en democratizar las visualizaciones y herramientas y, con ello, crear nueva información pública al alcance de todos, para un control más colaborativo de las mediciones.
La app Precios Cuidados, por ejemplo, presenta la utilidad de poder comparar precios de productos básicos y reclamar el incumplimiento a comercios (de precios o faltantes de productos), pero carece de la posibilidad social de compartir información entre los diferentes usuarios o reportar datos de productos en una visualización geográfica que sirva a otros consumidores pares (este fenómeno de inteligencia colectiva y crowdsourcing ya ha sido planteado en un post anterior).
Imaginar un control de precios mediante crowdsoucing resulta una posibilidad futura para incorporar a los consumidores como valiosas fuentes de datos.
En síntesis, el enorme valor de este desafío no es simplificar o acotar los métodos estadísticos tradicionales (que ya resultan de valor científico y son extrapolables a una población determinada) sino promover la participación de otros actores con herramientas propias de la ciencia de datos, entre los que se pueda crear una cadena de confianza para monitorear nueva información pública.
[contact-form-7 id=»662″ title=»Form for Contact Page»]