Artículo científico
Fijación de precios en plataformas de dos lados con inteligencia artificial
Pricing in Two-Sided Platforms with Artificial Intelligence
Resumen
Analizo el efecto del uso de algoritmos de inteligencia artificial en mercados de plataformas de dos lados. Cuando los algoritmos utilizan únicamente los valores de los beneficios de la empresa, los precios obtenidos son significativamente mayores a los de equilibrio teóricos, lo que se conoce en la literatura como que los algoritmos coluden. Sin embargo, cuando los algoritmos acceden a mayor información, encuentro que los precios de mercados son similares a los teóricos.
Palabras clave: plataformas a dos lados, inteligencia artificial, precios algoritmicos.
ABSTRACT
I analyze the effect of using artificial intelligence algorithms in two-sided platform markets. When the algorithms rely solely on the firm's payoff values, the resulting prices are significantly higher than the theoretical equilibrium, a phenomenon known in the literature as algorithmic collusion. However, when the algorithms have access to more information, I find that market prices are similar to the theoretical predictions.
Keywords: Two-sided platforms, artificial intelligence, algoritmic pricing.
Económica
Universidad Nacional de La Plata, Argentina
ISSN: 0013-0419
ISSN-e: 1852-1649
Periodicidad: Frecuencia continua
Vol. 71 2025
Recibido: 23/04/2024
Aceptado: 14/05/2025
Publicado: 14/08/2025

1-Introducción
La aplicación de algoritmos para la fijación de precios ha crecido de manera constante en los últimos años para distintos tipos de mercados como ser el de venta de entradas para espectáculos, aplicaciones de alojamiento o estaciones de combustibles. A la vez, también ha recibido la atención de agencias regulatorias e investigadores que han dedicado tiempo a tratar de entender sus posibles efectos en la competencia y el excedente de los consumidores. Los algoritmos pueden ser utilizados por distintos agentes de un mercado y permiten formas de fijación de precios que antes eran vistas como casos teóricos únicamente, como ser algunas formas de discriminación de consumidores, ya que lo único que necesitan es una función a maximizar y la definición de qué información utilizar para actualizar al algoritmo. Por ejemplo, el negocio de una plataforma online, como ser Amazon, consiste en conectar compradores con vendedores (sin considerar la venta de su propia línea de productos) y obtener unas tarifas por dicho servicio, por lo que sus tarifas pueden ser fijadas con algoritmos que incluyen información histórica, como ser las elasticidades de los compradores y vendedores por sus servicios. A su vez, las firmas que venden sus productos a través de Amazon pueden utilizar algoritmos para modificar sus precios con alta frecuencia, ya que Amazon permite que las firmas cambien sus precios con total libertad y frecuencia. La creciente información que las empresas tienen sobre los consumidores y su comportamiento en línea también facilita el uso de la discriminación y personalización de precios entre consumidores.
El objetivo de este trabajo es analizar los efectos que tiene el uso de algoritmos de Inteligencia Artificial, en particular algoritmos del subcampo de Reinforcement Learning, en la fijación de precios en mercados donde actúan plataformas de dos lados. Con esta clase de algoritmos, cada posible acción en el estado actual tiene asignado un valor y la acción elegida es la que tiene el mayor valor en ese estado.
Las plataformas de dos lados son firmas que deben interactuar con distintos grupos de agentes, donde el interés de cada grupo es el de interactuar con los agentes del otro grupo, como ser compradores y vendedores de un producto, y la forma en que los agentes pueden intercambiar es a través de una plataforma. Estudiar el uso de algoritmos en este tipo de mercado es de especial interés, ya que los precios teóricos reflejan la externalidad que la inclusión de un agente adicional de uno de los lados tiene en el precio a pagar por los individuos del otro sector. A su vez, este tipo de mercados permite simular la proporción de mercado que cada firma obtiene en cada uno de los lados del mercado. Otros trabajos han simulado el efecto que tiene el uso de algoritmos en mercados, pero principalmente se han enfocado en mercados oligopólicos, con competencia a la Bertrand (ver, por ejemplo, Asker et al., 2022; Calvano et al., 2020), donde el mercado tiende a basarse en que el ganador se queda con todo el mercado.
El resto del trabajo se organiza de la siguiente manera. En la Sección 2 se presenta una revisión de la literatura de los modelos de plataformas de dos lados y del uso de algoritmos en la fijación de precios en distintos mercados, mientras que en la Sección 3 se define el tipo de algoritmos a utilizar, en la Sección 4 se presentan los modelos a simular y resultados, y en la Sección 5 se realizan las conclusiones.
2-Revisión de la literatura
Muchos mercados pueden pensarse como compuestos por firmas o plataformas que interactúan con dos mercados o grupos a la vez. Ejemplos de estos son las consolas de videojuegos, que interactúan con diseñadores y creadores de videojuegos a la vez que lo hacen con los consumidores finales de videojuegos, las plataformas de compra y venta de productos en línea como puede ser Amazon, y también los clubes nocturnos que muchas veces fijan entradas o promociones distintas para hombres y mujeres. La principal diferencia que surge en este tipo de mercados con respecto a los mercados convencionales es en la internalización que tienen el precio y el número de agentes en uno de los grupos que se unen a una plataforma en el precio final cobrado a los agentes del otro grupo. El estudio de mercados en donde actúan plataformas de dos lados ha crecido de manera exponencial en las últimas dos décadas, principalmente a partir de los trabajos de Rochet y Tirole (2003) y Armstrong (2006).
Rochet y Tirole (2003) es el primer trabajo en analizar los efectos que tienen sobre los precios y las cuotas de mercado de una plataforma el hecho de que los agentes se puedan unir a una o múltiples plataformas (singlehoming o multihoming), la diferenciación entre plataformas, y la presencia de externalidades intra y entre lados. En su modelo, la forma de financiación de las plataformas es a través de una tarifa por cada interacción de un agente en particular. En cambio, Armstrong (2006) se enfoca en modelos con tarifa fija y sin tarifas variables. En ese modelo, el precio de la tarifa fija cobrada a un agente del grupo i refleja el costo por agente de una plataforma, el poder de mercado ejercido por la diferenciación entre plataformas y un término adicional que implica los ingresos extra que se obtienen porque los agentes del grupo j se ven atraídos a la plataforma por tener más agentes del grupo i, es decir, se internaliza los efectos positivos que tiene para una plataforma el hecho de incluir un agente adicional del grupo i. Luego del desarrollo de los trabajos mencionados, la literatura de plataformas de dos partes creció de manera exponencial.
Un problema que existía en muchos de los modelos desarrollados en la literatura es que, al habilitar la posibilidad de que las firmas recaudaran con tarifas en dos partes, un cargo fijo por usar la plataforma y un cargo por cada interacción que cada agente tiene en las plataformas, existían múltiples equilibrios por lo que era imposible derivar resultados teóricos sobre el uso de la tarifa en dos partes. El trabajo de Reisinger (2014) encuentra una solución a este problema al permitir que exista heterogeneidad entre los agentes de uno de los dos grupos. El principal resultado teórico es que únicamente el grupo homogéneo es el que paga una tarifa fija por unirse a la plataforma. Intuitivamente, esto pasa porque la plataforma no es capaz de identificar qué clase de agentes son los que se unirían a la plataforma en caso de que se les imponga un costo fijo.
Este trabajo también se relaciona con la creciente literatura sobre el uso de algoritmos en la fijación de precios de distintos mercados. El uso de algoritmos de inteligencia artificial para la fijación de precios en mercados donde estos se ajustan con alta frecuencia ha crecido en las últimas décadas. Ejemplos de esto son la fijación de los precios de los pasajes de aviones, el valor de las estadías en hoteles o incluso las entradas para eventos deportivos o musicales. Diferentes investigadores han analizado el rol del uso de algoritmos de inteligencia artificial en la fijación de precios, en su mayoría desde una perspectiva teórica. Klein (2021) muestra que en un mercado donde las empresas fijan sus precios mediante el uso de algoritmos de inteligencia artificial, sin intercambiar información entre las firmas y fijando sus precios de manera independiente entre ellas, se llega a resultados similares a los esperables en un mercado colusorio, con menores cantidades y mayores precios que los esperados en mercados competitivos. De acuerdo a la teoría económica, los mercados colusorios exhiben la característica de tener un trade-off entre desviarse de la colusión y obtener beneficios mayores a corto plazo pero menores a largo plazo, lo cual Klein (2021) encuentra que puede ocurrir en mercados basados en algoritmos. Calvano et al. (2020) encuentran resultados similares a Klein (2021) asumiendo que los mercados tienen una demanda basada en un modelo Logit, donde se destaca que los desvíos de un posible equilibrio con existencia de colusión ocurren únicamente en pocos períodos y el desvío con respecto a valores colusivos se da durante pocos períodos. Asker et al. (2022) ejemplifican los efectos del uso de algoritmos en un mercado basado en competencia de precio a la Bertrand, donde el precio teórico es igual al costo marginal, y encuentran que la falta de información disponible para alimentar a los algoritmos llevan a que los precios alcanzados en esos mercados son significativamente mayores a los de equilibrio, mientras que Waltman y Kaymak (2008) analizan el uso de algoritmos en mercados a la Cournot, llegando a conclusiones similares. También se han analizado los efectos colusivos del uso de algoritmos desde un punto de vista legal, por ejemplo en Harrington (2018). Existen pocos trabajos empíricos sobre los efectos del uso de algoritmos en la fijación de precios. Assad et al. (2024) analizan el uso de algoritmos en las estaciones de servicio de Alemania, encontrando que la utilización de algoritmos aumentó los márgenes en las estaciones de servicio que los implementan. Brown y MacKay (2023) estudian el uso de algoritmos entre distintas firmas de retail que venden medicamentos, encontrando que el uso de algoritmos lleva a mayores precios y con una gran dispersión entre las firmas.
3-Fijación de precios con actualización asincrónica
La fijación de precios mediante algoritmos ha venido creciendo de manera continua entre distintos tipos de firmas, en particular entre las firmas que ajustan sus precios con alta frecuencia. La literatura no parece haber analizado todavía la utilización de estos algoritmos en mercados en donde existen plataformas de dos lados (con la excepción de Johnson et al., 2023), donde el precio óptimo de cada grupo tiene incorporado el efecto que tiene en los agentes del otro grupo un mayor precio, y cuáles son los efectos que tiene utilizar algoritmos que puedan ignorar o no esta condición. Este trabajo busca contribuir en ese sentido.
Dentro de las distintas técnicas de aprendizaje automático, este trabajo se enfoca principalmente en técnicas de reinforcement learning con aprendizaje asincrónico, el cual se diferencia del aprendizaje sincrónico debido a que el primero no supone conocer información adicional a la de los beneficios observados en el período pasado, mientras que el aprendizaje sincrónico supone que se conocen las condiciones de la demanda, los precios de los competidores, etc. En la Sección 4.(d) se muestra una aplicación de actualización sincrónica a modo de comparación.
Más formalmente, siguiendo a Asker et al. (2022), en un algoritmo de reinforcement learning se especifica un algoritmo con un objetivo (e.g. maximizar beneficios), valores iniciales para la función objetivo y una regla para actualizar los valores iniciales. Es decir, el algoritmo consiste de
Para cada firma i, un conjunto Si de estados, cuyos elementos si son los posibles componentes de información condicionales en los que una firma toma una decisión. En nuestro caso, el si se entiende como la expectativa que tiene la firma sobre los beneficios que se obtienen si se cobra un determinado precio para cada uno de los grupos, expectativa que depende de la información histórica disponible sobre beneficios pasados.
El conjunto de valores para cada firma que pueden ser interpretados como las percepciones de cada firma sobre los posibles beneficios de jugar cada posible acción: {Wi (p | si)}p∈P,si∈S, donde en nuestro caso p = (p1, p2), el vector de precios cobrados a cada grupo.
Un método para elegir una acción, en cada iteración k + 1 condicional en Wk. Si no existe experimentación en el algoritmo, entonces el algoritmo elegirá pk,∗ ∈ arg max Wk (p | si). Cuando existe experimentación (ϵ−greedy policy), el algoritmo elige pk,∗ con probabilidad 1 − ϵ y con probabilidad ϵ elige un valor p de manera aleatoria.
Una regla para actualizar los valores de Wi. Como ejemplos de reglas de actualización tenemos:
Actualización sincrónica: Wk (p | si) es actualizado para todo p ∈ P .ii
Actualización asincrónica solo Wik es actualizado

donde λ(k) determina el impacto de la observación actual en la regla de decisión. Para nuestro caso, va a determinar qué tanto se actualizan los beneficios esperados de cada combinación de precios, dado los beneficios obtenidos en la iteración previa. Este trabajo se va a enfocar en mostrar cómo funcionan los algoritmos de actualización asincrónica para la fijación de precios de las plataformas de dos lados. A modo de ejemplo, suponiendo que cada precio tiene dos únicos posibles valores (L,H) y que en la iteración k se eligió (k k), la forma de actualización asincrónica implica que partiendo de

y obteniendo unos beneficios se obtiene

es decir, la matriz contiene los beneficios “esperados” del algoritmo para cada combinación de precios, mientras que son los beneficios que efectivamente se obtuvieron de jugar la combinación .
Para estudiar los resultados de las simulaciones, vamos a analizar los Puntos de Descanso. Decimos que el algoritmo alcanzó un Punto de Descanso en la iteración k = k∗ si para todo k ≥ k∗ los precios son constantes.
En este trabajo nos vamos a enfocar principalmente en el caso en que Si corresponde únicamente a los beneficios de la firma i de acuerdo a los precios posibles para fijar, sin considerar los precios o beneficios obtenidos por otra firma en períodos pasados, como otra información del mercado. Es decir, al realizar la actualización asincrónica, es actualizada únicamente para , por lo que en este modelo los beneficios son lo único necesario para realizar la actualización de la función W (.), como se realizó en el ejemplo anterior.
Para fijar ideas sobre resultados previos, usamos el modelo de Asker et al. (2022), el cual es el clásico modelo de Bertrand de competencia en precios con dos firmas i ∈ {1, 2}, c1 = c2 = c = 2 y la demanda D = 1 para un producto homogéneo.

Figura 1: Nota: Precios (eje vertical) por período (eje horizontal) de 100 simulaciones. Las líneas, de abajo hacia arriba, son del mínimo, percentil 25,50 y 75, y el máximo de la distribución de precios de cada período. Los resultados son de un mercado estático de Bertrand de dos firmas y un bien homogéneo. Los resultados mostrados son para la firma 1. El modelo está parametrizado de la siguiente forma: demanda Q
= 1 si P <10, cero en otro caso. Costo marginal = 2. Precios posibles existen en un grid de 100 elementos igualmente distribuidos entre 0.1 y 10 inclusive. Firmas ponen cero peso en beneficios futuros. El peso de beneficios presentes es ajustado con λ = 0,1. Fuente Asker et al. (2022).
La Figura 1 muestra que en un modelo simple, con actualización asincrónica, los puntos de descanso que se obtienen son con precios significativamente mayores al de equilibrio de Nash (p=c=2) y la convergencia es relativamente rápida. Ver Asker et al. (2022) para más resultados.
4-Plataformas de dos lados con agentes single-homing y tarifas fijas
El principal modelo para analizar es el de 2 plataformas (A y B) de dos lados/grupos (1 y 2), simétricas y donde los agentes pueden unirse únicamente a una de las dos plataformas (singlehoming) y la forma de financiarse de las plataformas es con una tarifa fija por cada agente que se une.
Modelo teórico y valores para las simulaciones
Esta sección sigue a Armstrong (2006). Existen dos plataformas, A y B, situadas en los puntos 0 y 1, respectivamente. A su vez, existe un continuo de agentes del grupo 1 y 2, ambos con medida 1, distribuidos de manera Uniforme(0,1), los cuales tienen una utilidad donde ui es la utilidad de un agente del grupo j de unirse a la plataforma i, αj es la utilidad que obtiene un individuo del grupo j por interactuar con cada agente del grupo k, es la cantidad de agentes del grupo k (con k distinto de j) que se unen a la plataforma i y ϵi es un beneficio fijo por unirse a la plataforma i. Este beneficio fijo asumimos que es suficientemente grande para que todos los agentes acepten incorporarse a una (única) plataforma, es decir, asumimos que todos los agentes de cada grupo necesariamente se incorporarán a una única plataforma. El modelo implica una variante del modelo de Hotelling para las proporciones de mercado de cada firma y lado:

donde , son los parámetros de diferenciación de producto (o costos de transporte). Reemplazando las funciones de utilidad e imponiendo que los mercados tienen medida 1 (por lo que , obtenemos las siguientes expresiones para las proporciones de mercado

para la firma i (proporción de agentes del grupo 1 y 2 que se unen a la plataforma i) y y para la firma j (en un equilibrio simétrico, todas las proporciones de mercado serán 1/2).
Definiendo los costos por agente de cada grupo como f1 y f2 (y asumiendo que los costos son iguales para las firmas), podemos expresar los beneficios de la firma i como

donde la Ecuación (4) puede interpretarse como una función de mejor respuesta de la firma i. En un equilibrio simétrico los precios de equilibrio para cada lado son:

por lo que los beneficios de cada firma son
(6)ya que por simetría se cumple ==1/2. La única condición para que este equilibrio exista es
Los valores a usar para las simulaciones son
f1 = f2 = 1
t1 = t2 = 3
α1 = 1, α2 = 2
λ = 0,1
Por lo tanto, los valores de equilibrio son
Junto con estos valores, también debemos simular valores iniciales para , lo cual hacemos de distribuciones uniformes entre 0 y 10 para asegurarnos un soporte suficientemente grande para facilitar la exploración de los algoritmos. Es decir, para cada combinación de (p1, p2) y para cada firma, el valor inicial de la percepción del beneficio de esa combinación de precios es generada por Unif (0, 10). Permitimos que existan simulaciones que comiencen con valores de los beneficios significativamente mayores a los de equilibrio porque en la literatura se argumenta que esto tiende a favorecer a la exploración de los algoritmos. Un último supuesto debe agregarse para analizar los resultados de la siguiente sección. Existe la posibilidad de que alguna de las firmas obtenga beneficios no positivos durante iteraciones consecutivas, por lo que asumimos que las firmas tienen capacidad monetaria suficiente para persistir durante períodos en los que no tienen beneficios positivos sin salirse del mercado.
Resultados
La Figura 2 muestra los resultados de simular un mercado de dos firmas de plataformas en dos lados y con agentes single-homing. Puede verse como los puntos de descanso para ambos grupos son significativamente mayores que sus valores teóricos cuando la actualización es asincrónica. A su vez, los algoritmos tampoco internalizan las diferencias entre un grupo y otro, ya que el cociente entre precios p1/p2 es de 0.860, 1.013, 1.048, 0.989, 1, para el mínimo, percentiles 25, 50, 75 y el máximo de la distribución de los puntos de descanso de las simulaciones.


(I) (II)
Figura 2: Nota: Precios (eje vertical) por período (eje horizontal) de 100 simulaciones de 20.000 iteraciones cada una. Las líneas, de abajo hacia arriba, son el mínimo, percentil 25, 50, 75 y el máximo de la distribución de precios de cada período, para la firma A.
La Figura 3 muestra la proporción de agentes del grupo 1 y 2 que se unen a la firma A. Es interesante notar que la mediana de los puntos de descanso de las simulaciones alcanza los valores teóricos, ya que es de 0.507 y 49.3 para el grupo 1 y 2 para el caso de la firma A.

(I) (II)Figura 3: Nota: Proporción del grupo 1 y 2 (eje vertical) por período (eje horizontal) de 100 simulaciones de 20.000 iteraciones cada una. Las líneas, de abajo hacia arriba, son el mínimo, percentil 25, 50, 75 y el máximo de la distribución de la proporción de cada grupo para cada período, para la firma A.
La Figura 4 muestra las simulaciones de los beneficios para la plataforma A, donde se constata que los beneficios son significativamente mayores a los descriptos por el modelo teórico (e implican un menor excedente del consumidor).

Figura 4: Nota: Beneficios (eje vertical) por período (eje horizontal) de 100 simulaciones. Las líneas, de abajo hacia arriba, son del mínimo, percentil 25,50 y 75, y el máximo de la distribución de beneficios de cada período en el modelo de plataformas de dos lados con agentes que se unen a estrictamente una plataforma, como en Armstrong (2006).
Para entender por qué los precios terminan siendo significativamente mayores a los teóricos y por qué los puntos de descanso se alcanzan luego de cerca de 15.000 iteraciones, podemos mencionar dos puntos. Primero, podemos observar la Ecuación 4 y observar que, si las firmas terminan fijando precios iguales, se obtendrían lo que implica que unos mayores precios terminan llevando a mayores beneficios para las firmas, lo cual es implícitamente captado por los algoritmos. Es sencillo observar que, si ambas firmas fijan iguales precios, por ejemplo, = los beneficios de cada firma son 5, mientras que con los precios teóricos los beneficios son de Sin embargo, al no contar con el mismo conjunto de información que el necesario para que el mercado llegue a los beneficios de , nada garantiza que ese sea un punto de descanso. Por lo tanto, para determinar (), lo único que importa es la diferencia entre precios, producto del supuesto que impone que los agentes de cada grupo se sumarán a una de las dos plataformas y no tienen como opción mantenerse fuera del mercado. Esto implica que las diferencias entre precios para un nivel más alto de precios llevan a un aumento de los beneficios. Por ejemplo, =implican y unos beneficios de . Por lo tanto, esto implica que los algoritmos tienden a arribar a mayores niveles de precios.
Segundo, sobre la cantidad de iteraciones, los algoritmos eligen en promedio 2.800 combinaciones distintas de p1 y p2. La razón de esta variación en la elección de los precios se da por los beneficios asociados a cada combinación. Tomando como ejemplo un punto de descanso con beneficios iguales a 8, dado que los beneficios esperados al comienzo de las iteraciones surgieron de una distribución Unif (0, 10), en promedio habría 2.000 combinaciones posibles mayores a los beneficios que se obtienen en el punto de descanso, por lo que todas las combinaciones de precios que implican beneficios mayores a 8 serían exploradas inicialmente. Solo una vez que todas estas combinaciones de precios que tenían beneficios esperados mayores a 8 son elegidas y tienen unos beneficios efectivos menores a 8 es que son descartadas. Por lo tanto, los puntos de descanso observados se logran cuando se espera que los beneficios para cualquier otra combinación de precios sean menores, y los beneficios del posible punto de descanso se mantienen constantes en todas las iteraciones siguientes.
Variaciones del modelo con actualización asincrónica
Con el objetivo de analizar la robustez de los resultados sobre el uso de algoritmos en la fijación de precios en este tipo de mercado es que en esta sección se exploran variantes del modelo de la sección anterior.
Efectos de un mayor impacto del valor presente. El Cuadro 1 muestra los resultados para los precios y las proporciones de ambos grupos que se unen a la firma A para distintos valores de λ. Es interesante notar que cuanto mayor es el valor de λ, más rápido se alcanzan los puntos de descanso con menores iteraciones (ver Figura A.2(II) en el Apéndice).
Cuadro 1: Valores de puntos de descanso según ponderación de observación presente
| λ = 0,1λ = 0,25λ = 0,5λ=0,5λ=0,1 | ||||||||
|---|---|---|---|---|---|---|---|---|
| p1 | p2 | p1 | p2 | p1 | p2 | p1 | p2 | |
| Mínimo | 6.065 | 6.771 | 6.872 | 5.964 | 4.955 | 5.459 | 0.817 | 0.806 |
| percentil 25 | 8.486 | 8.335 | 8.234 | 8.234 | 7.679 | 7.730 | 0.905 | 0.927 |
| percentil 50 | 9.041 | 9.041 | 9.092 | 8.999 | 8.890 | 8.638 | 0.983 | 0.955 |
| percentil 75 | 9.596 | 9.395 | 9.697 | 9.546 | 9.395 | 9.294 | 0.979 | 0.989 |
| Máximo | 10 | 10 | 10 | 10 | 10 | 10 | 1 | 1 |
| Valor teórico | 2 | 3 | 2 | 3 | 2 | 3 | 1 | 1 |
| n1 | n2 | n1 | n2 | n1 | n2 | n1 | n2 | |
| Mínimo | 0.248 | 0.291 | 0.262 | 0.298 | 0.262 | 0.269 | 1.056 | 0.924 |
| percentil 25 | 0.424 | 0.442 | 0.442 | 0.457 | 0.421 | 0.457 | 0.993 | 1.033 |
| percentil 50 | 0.507 | 0.493 | 0.5000 | 0.500 | 0.486 | 0.514 | 0.959 | 1.043 |
| percentil 75 | 0.558 | 0.578 | 0.543 | 0.558 | 0.543 | 0.579 | 0.973 | 1.001 |
| Máximo | 0.709 | 0.752 | 0.702 | 0.738 | 0.731 | 0.738 | 1.031 | 0.981 |
| Valor teórico | 0.5 | 0.5 | 0.5 | 0.5 | 0.5 | 0.5 | 1 | 1 |
NOTA: Valores de punto de descanso para el mínimo, percentiles 25, 50, 75 y el máximo de 100 simulaciones de 20.000 iteraciones cada una, para λ = {0,1, 0,25, 0,5}.
Efectos de un mayor beneficio por interacción en uno de los grupos: El Cuadro 2 muestra algunos estadísticos de los puntos de descanso de acuerdo al valor del beneficio que obtiene un agente del grupo 2 por cada interacción extra con un agente del grupo 1 (manteniendo el beneficio del grupo 1 constante). Los valores de α2 afectan al valor teórico de p1, el cual incluso puede ser negativo cuando se desea subsidiar a los agentes del grupo 1. Sin embargo, los algoritmos no captan las distintas magnitudes de la externalidad, por ejemplo, el coeficiente de la mediana de los precios de ambos grupos es de 0.999, 1.008, 1.017 y 0.949 para α2 = [2, 3, 4, 5], respectivamente.
Cuadro 2: Valores de puntos de descanso según beneficio por interacción con agentes del otro grupo
| α2 = 2α2 = 3α2 = 4α2 = 5 | ||||||||
|---|---|---|---|---|---|---|---|---|
| p1 | p2 | p1 | p2 | p1 | p2 | p1 | p2 | |
| Mínimo | 6.065 | 6.771 | 6.267 | 6.670 | 6.267 | 6.872 | 5.560 | 6.166 |
| percentil 25 | 8.486 | 8.335 | 8.436 | 8.587 | 8.285 | 8.083 | 7.982 | 7.982 |
| percentil 50 | 9.041 | 9.041 | 9.092 | 9.020 | 9.041 | 8.890 | 8.538 | 8.991 |
| percentil 75 | 9.596 | 9.395 | 9.496 | 9.596 | 9.496 | 9.546 | 9.395 | 9.496 |
| Máximo | 10 | 10 | 10 | 10 | 10 | 10 | 10 | 10 |
| Valor teórico | 2 | 3 | 1 | 3 | 0 | 3 | -1 | 3 |
| α2 = 2α2 = 3α2 = 4α2 = 5 | ||||||||
| n1 | n2 | n1 | n2 | n1 | n2 | n1 | n2 | |
| Mínimo | 0.248 | 0.291 | 0.349 | 0.273 | 0.318 | 0.308 | 0.323 | 0.273 |
| percentil 25 | 0.424 | 0.442 | 0.462 | 0.424 | 0.455 | 0.434 | 0.462 | 0.431 |
| percentil 50 | 0.507 | 0.493 | 0.525 | 0.487 | 0.505 | 0.480 | 0.500 | 0.487 |
| percentil 75 | 0.558 | 0.578 | 0.572 | 0.551 | 0.551 | 0.561 | 0.551 | 0.551 |
| Máximo | 0.709 | 0.752 | 0.662 | 0.702 | 0.662 | 0.783 | 0.990 | 0.990 |
| Valor teórico | 0.5 | 0.5 | 0.5 | 0.5 | 0.5 | 0.5 | 0.5 | 0.5 |
NOTA: Valores de punto de descanso para el mínimo, percentiles 25, 50, 75 y el máximo de
100 simulaciones de 20.000 iteraciones cada una, para α2 = {2, 3, 4, 5} y α1 = 1.
Experimentación en base a un algoritmo ϵ−greedy. La literatura de Reinforcement Learning enfatiza que, en el caso de algoritmos de actualización asincrónica, la experimentación del algoritmo puede implicar mejoras en los resultados, ya que obliga al algoritmo a implementar estrategias de todo el soporte posible de la variable de elección, lo que lleva a una actualización de distintos valores de la matriz W (.). En concreto, tomando como el par de precios óptimos para cada mercado, una estrategia con experimentación ϵ−greedy implica que con probabilidad 1 − ϵk la firma elige (pk,∗, pk,∗) y con probabilidad ϵk la empresa elige un set de precios de manera aleatoria (para la parametrización utilizada, elige uno de los restantes valores de los soportes de (p1, p2) (para este experimento, una de las 100x100 - 1 opciones distintas a (pk,∗, pk,∗)). Para este experimento, siguiendo a Asker et al. (2022), implemento la experimentación especificando , donde k es el número de iteración en que se encuentra el algoritmo y θ es un parámetro que regula la probabilidad de experimentación, donde un mayor valor implica una mayor probabilidad de experimentación en cada iteración.
El Cuadro 3 muestra los resultados de permitir que el algoritmo experimente durante las primeras 5.000 iteraciones, para θ ∈ {1, 2, ..., 10}. Esto implica que la probabilidad de experimentación en la iteración 5.000 para θ = 1 es 0, 0002, mientras que para θ = 10 la probabilidad es de 0, 4266. El Cuadro 3 muestra que la experimentación no tiene efectos significativos en los puntos de descanso con respecto al caso sin experimentación. La última fila del cuadro incluye el caso en que la experimentación es implementada hasta la iteración 10.000 y para un θ = 100; sin embargo, tampoco se observan cambios significativos. La Figura A.3 muestra los precios para este caso, donde se constata que la cantidad de iteraciones necesaria para alcanzar los puntos de descanso no se ve afectada por la experimentación.

Plataformas de dos lados con agentes single-homing y precios uniformes
Un caso especial de plataformas de dos lados es cuando estas imponen el mismo precio para ambos lados (por ejemplo, cuando existe alguna ley que evite la discriminación de precios entre ambos lados del mercado). Asumiendo f1 = f2 e igual entre ambas plataformas, tenemos que las ganancias de la firma i son

las proporciones de la plataforma i son

y el precio fijado es

Para las simulaciones adoptamos los valores

y los valores teóricos de equilibrio son

La Figura 5 muestra que la convergencia es significativamente más rápida que en el modelo con precios diferenciados, tanto para los precios como para la proporción de mercado de cada firma.


Figura 5: Nota: Precio y proporción del grupo 1 y 2 (eje vertical) por período (eje horizontal) de 100 simulaciones de 20.000 iteraciones cada una. Las líneas, de abajo hacia arriba, son el mínimo, percentil 25, 50, 75 y el máximo de la distribución para la firma A.
D)Actualización con mayor información
Actualización con una restricción económica. Una simple restricción que se puede incorporar a los algoritmos de actualización asincrónica es la de evitar el espacio de precios que ex-ante aseguran que los beneficios serán negativos. Es decir, si bien puede ocurrir que sea óptimo que el precio para uno de los dos lados sea menor a los costos marginales o incluso que sea negativo (para atraer una mayor proporción de los agentes del otro lado), nunca será óptimo fijar los precios de ambos mercados por debajo del costo marginal. Por lo tanto, adoptamos la siguiente regla para la fijación de precios:

La Figura 6 muestra los beneficios de la firma A cuando se compite incluyendo la restricción económica. La principal diferencia se constata en los beneficios mínimos en cada iteración, ya que al incorporar la restricción un 52,7 % de los períodos tienen un beneficio negativo, mientras que sin la restricción es de un 57,2 %. Para los beneficios entre todas las simulaciones e iteraciones, los porcentajes son de 1,5 % y 1,9 %, respectivamente.2222(10)(10)

Figura 6: Nota: Beneficios (eje vertical) por período (eje horizontal) de 100 simulaciones. Las líneas, de abajo hacia arriba, son del mínimo, percentil 25,50 y 75, y el máximo de la distribución de beneficios de cada período en el modelo de plataformas de dos lados con agentes que se unen a estrictamente una plataforma, como en Armstrong (2006) con la restricción de que ambos precios no pueden estar por debajo de los costos.
Actualización sincrónica. Podemos también simular un modelo donde las firmas tienen información (casi) perfecta sobre el mercado, a excepción del precio fijado por la firma rival. En concreto, el set de información en la iteración k de las plataformas A y B es , donde son los precios fijados por la firma i para el lado n desde la iteración 1 hasta la k − 1. Por lo tanto, dado que la firma i conoce la forma de competencia del mercado, puede utilizar una predicción sobre para fijar los precios que maximicen sus beneficios de acuerdo a la Ecuación (4), es decir, la firma resuelve

La función de mejor respuesta de cada firma para cada grupo se puede expresar como

donde y . Los precios óptimos derivados de la Ecuación (11) son una función extensa de los parámetros y los precios fijados esperados por la firma rival. El Apéndice (a) contiene la derivación de ellos. Para el caso de la fijación de reemplazando los valores de los parámetros para las simulaciones, encontramos que el coeficiente asociado con E( es de . Por lo tanto, las funciones de mejor respuesta de la plataforma i son complementarias con los precios esperados de la plataforma rival


Figura 7: Nota: Precios con actualización sincrónica del grupo 1 y 2 (eje vertical) por período (eje horizontal) de 100 simulaciones de 20.000 iteraciones cada una, utilizando E( y . Las líneas, de abajo hacia arriba, son el mínimo, percentil 25, 50, 75 y el máximo de la distribución para la firma A.
La Figura 7 muestra los resultados cuando la firma i utiliza como predicción a los precios observados por la firma j en el período pasado, es decir, E(y , para los mismos valores de los parámetros utilizados en las simulaciones de las secciones anteriores. Podemos ver cómo, a diferencia del uso de algoritmos de actualización asincrónica, los precios convergen rápidamente a un equilibrio donde los precios observados son iguales a los casos teóricos. La Figura A.4 y Figura A.5 muestran las proporciones y beneficios de este modelo.
5-Conclusión
El uso de algoritmos implica que existe una amplia variedad de resultados posibles para el excedente del consumidor y las ganancias de las firmas. Con un simple modelo de plataformas de dos lados observamos cómo ambos grupos de consumidores se pueden ver perjudicados con algoritmos de actualización asincrónica, incluso para el caso en que el precio de ambos lados del mercado debe ser el mismo. Sin embargo, cuando los algoritmos incluyen una cantidad significativa del mercado en que se encuentran, los resultados tienden a los de un equilibrio competitivo.
Desde un punto de vista de una agencia reguladora, resulta difícil concluir qué pasos tomar sobre el uso de algoritmos. A priori, no existe motivo por el cual prohibir el uso de algoritmos para la fijación de precios, en especial porque algunos mercados no podrían funcionar de acuerdo a la alta frecuencia de los ajustes necesarios de los precios. A su vez, el hecho de saber que existen algoritmos que resultan eficientes desde un punto de vista social puede llevar a incentivar su uso. Sin embargo, este trabajo no ha incorporado la posibilidad de que una firma internalice los efectos que tiene el uso de distintos tipos de algoritmos en sus propios beneficios, lo cual podría llevar a un juego entre firmas donde cada una considere qué tipo de algoritmo sería beneficioso implementar, algo mencionado en las conclusiones en Asker et al. (2022).
Una línea de investigación futura es el de modelar las decisiones de cada firma sobre qué algoritmo utilizar dado que las mismas conocen los posibles beneficios de cada tipo. A su vez, dada la complejidad computacional, nos hemos abstraído de algoritmos que consideran no solo los beneficios presentes, sino también los beneficios futuros. La robustez de los resultados a este tipo de algoritmos parece una extensión interesante.
Referencias
Armstrong, M. (2006). Competition in two-sided markets. The RAND Journal of Economics, 37(3), 668–691.
Asker, J., Fershtman, C. y Pakes, A. (2022). Artificial intelligence, algorithm design, and pricing.
AEA Papers and Proceedings, 112, 452–456. https://doi.org/10.1257/pandp.20221059
Assad, S., Clark, R., Ershov, D. y Xu, L. (2024). Algorithmic pricing and competition: Empirical evidence from the German retail gasoline market. Journal of Political Economy, 132(3), 723-771. https://doi.org/10.1086/726906
Brown, Z. Y. y MacKay, A. (2023). Competition in pricing algorithms. American Economic Journal: Microeconomics, 15(2), 109–156. https://doi.org/10.1257/mic.20210158
Calvano, E., Calzolari, G., Denicolo, V. y Pastorello, S. (2020). Artificial intelligence, algorithmic pricing, and collusion. American Economic Review, 110(10), 3267–3297. . https://doi.org/10.1257/aer.20190623
Competition and Markets Authority (2018). Pricing algorithms: Economic working paper on the use of algorithms to facilitate collusion and personalised pricing. Crown.
Harrington, J. E. (2018). Developing competition law for collusion by autonomous artificial agents.
Journal of Competition Law & Economics, 14(3), 331–363. https://doi.org/10.1093/joclec/nhy016
Johnson, J. P., Rhodes, A. y Wildenbeest, M. (2023). Platform design when sellers use pricing algorithms. Econometrica, 91(5), 1841–1879. https://doi.org/10.3982/ECTA19978
Jullien, B., Pavan, A. y Rysman, M. (2021). Handbook of industrial organization. En K. Ho, A. Hortaçsu y A. Lizzeri (Eds.), Two side markets, pricing and network effects (pp. 485–592). https://doi.org/10.1016/bs.hesind.2021.11.007
Klein, T. (2021). Autonomous algorithmic collusion: Q-learning under sequential pricing. The RAND Journal of Economics, 52(3), 538–558. http://dx.doi.org/10.1111/1756-2171.12383
Reisinger, M. (2014). Two-part tariff competition between two-sided platforms. European Economic Review, 68, 168–180. https://doi.org/10.1016/j.euroecorev.2014.03.005
Rochet, J.-C. y Tirole, J. (2003). Platform competition in two-sided markets. Journal of the European Economic Association, 1(4), 990–1029. https://doi.org/10.1162/154247603322493212
Waltman, L. y Kaymak, U. (2008). Q-learning agents in a Cournot oligopoly model. Journal of Economic Dynamics and Control, 32(10), 3275–3293. https://doi.org/10.1016/j.jedc.2008.01.003
Apéndice
Derivación de precios óptimos con incertidumbre
En esta sección vamos a obtener los precios óptimos de la firma i para el caso en que la firma conoce las condiciones de mercado y utiliza una predicción sobre el precio a fijar por la otra firma. Para simplificar la notación, escribiremos y para n=1,2 y definimos . Partimos de la Ecuación (11), escribimos las condiciones de primer orden

Haciendo un poco de álgebra obtenemos:

Realizando los mismos pasos para la condición de primer orden para p2 (o notando que el problema es simétrico) obtenemos

Sustituyendo la Ecuación (14) en la Ecuación (13), definiendo y reordenando términos obtenemos:

donde vemos que es una función de parámetros y los precios esperados de ambos lados de la otra firma; sin embargo, el signo de los coeficientes asociados a E(p1), E(p2) pueden ser positivos o negativos dependiendo de los valores de los parámetros α1, α2, t1, t2. pi es definido de manera análoga.22
Figuras y Cuadros


Figura A.1: Nota: Precios (eje vertical) por período (eje horizontal) de 100 simulaciones. Las líneas, de abajo hacia arriba, son del mínimo, percentil 25,50 y 75, y el máximo de la distribución de precios de cada período en el modelo de plataformas de dos lados con agentes que se unen a estrictamente una plataforma, como en Armstrong (2006) con la restricción de que ambos precios no pueden estar por debajo de los costos.


Figura A.2: Nota: Usando λ = 0,5, precios (eje vertical) por período (eje horizontal) de 100 simulaciones de 20.000 iteraciones cada una. Las líneas, de abajo hacia arriba, son el mínimo, percentil 25, 50, 75 y el máximo de la distribución de precios de cada período, para la firma A en el modelo de plataformas de dos lados con agentes que se unen a estrictamente una plataforma, como en Armstrong (2006).


Figura A.3: Precios (eje vertical) por período (eje horizontal) de 100 simulaciones de 20.000 iteraciones cada una permitiendo la experimentación en las primeras 10.000 iteraciones con probabilidad para la iteración k. Las líneas son el mínimo, percentiles 25, 50, 75 y el máximo de la distribución de precios de cada período, para la firma A en el modelo de plataformas de dos lados con agentes que se unen estrictamente a una plataforma, como en Armstrong (2006).


Figura A.4: Nota: Proporciones de mercado (eje vertical) por período (eje horizontal) de 100 simulaciones de 20.000 iteraciones cada una con actualización sincrónica. Las líneas son el mínimo, percentiles 25, 50, 75 y el máximo de la distribución de precios de cada período, para la firma A en el modelo de plataformas de dos lados con agentes que se unen estrictamente a una plataforma, como en Armstrong (2006).

Figura A.5: Nota: Beneficios (eje vertical) por período (eje horizontal) de la firma A de 100 simulaciones del modelo con actualización sincrónica. Las líneas, de abajo hacia arriba, son del mínimo, percentil 25,50 y 75, y el máximo de la distribución de beneficios de cada período en el modelo de plataformas de dos lados con agentes que se unen a estrictamente una plataforma, como en Armstrong (2006).