INTRODUCCIÓN
Hace un par de años, un hombre entró en alto estado de agitación a un Walmart en Estados Unidos, y exigió hablar con el administrador. Quería reclamar por el hecho de que su hija estuviese recibiendo cupones de descuento para cunas y fórmula para bebés. “¡Mi hija está apenas en bachillerato! —gritó— ¿Quieren alentarla a que quede embarazada?” La joven en efecto estaba embarazada, y Walmart se enteró primero que la familia: el supermercado le había enviado la publicidad porque, mediante sus algoritmos, la había relacionado con ciertos hábitos de consumo de personas en ese estado1.
De alguna forma, esta anécdota podría haber ocurrido 1975 o 1985: desde hace décadas, las grandes tiendas han hecho lo posible para acopiar conocimientos sobre sus clientes con fines de mercadeo. Hay, sin embargo, dos aspectos novedosos que hacen de esta historia un producto característico de la segunda década del siglo XXI. El primero es el acceso a cantidades masivas de información sobre los hábitos de las personas. Esta es la revolución del big data: nunca antes había sido posible recopilar tanta información sobre tanta gente, con tanta precisión2 —particularmente por las grandes plataformas digitales como Facebook, Google o Amazon, que registran cada una de las actuaciones de sus usuarios3—. Así, mientras que las estrategias de mercadeo o las campañas políticas siempre han buscado conocer las preferencias de segmentos particulares de la población, el big data hace posibles perfiles detallados que reflejan los hábitos y gustos de individuos específicos, y no solamente de grupos demográficos o de ciertas áreas geográficas.
El segundo aspecto novedoso es el incremento exponencial en la capacidad computacional de la última década. Una forma de pensar esta transformación es la “ley de Moore”, llamada así por el fundador de la compañía de procesadores Intel, quien observó acertadamente en 1965 que la capacidad de los microprocesadores se doblaría aproximadamente cada dos años4. Este crecimiento exponencial (que puede estar camino a cambiar5) implica que un microprocesador del 2017 tuvo casi nueve veces más capacidad que uno del 2010, o 511 veces más capacidad que uno del año 2000[6]. Nunca antes existió tal capacidad para procesar información —y nunca antes, como vimos, fue posible recopilar tal cantidad de información—. Así lo puso en evidencia el caso de la empresa de consultoría política Cambridge Analytica, que usó de manera inapropiada la información de millones de usuarios de Facebook para prestar servicios a sus clientes, e influyó en elecciones en Estados Unidos, Reino Unido, Nigeria, India, Brasil y Colombia, entre otros países7.
Estos dos cambios han captado, de manera creciente, la atención de la literatura jurídica. En primer lugar, la forma en que se recopila, almacena, analiza y utiliza la información puede entrar en conflicto con el derecho a la privacidad8 y la intimidad9, como lo decidió la Corte Suprema de Justicia en Carpenter, en junio del 2018[10]. De igual forma, otra fuente de preocupación es la protección al buen nombre y, en general, el manejo de la información personal en bases de datos electrónicas. Esta es la discusión del habeas data11, incluido el controversial “derecho al olvido”, reconocido en Europa12, pero no en Colombia13 ni en Brasil14.
Este artículo comparte algunas de esas preocupaciones, pero busca intervenir en un aspecto diferente de la conversación: más allá del problema de privacidad o buen nombre, aun si los datos se recogen y almacenan de manera apropiada, los recientes cambios han creado las condiciones para el surgimiento una nueva forma de ejercicio del poder, con características particulares y novedosas. En ese contexto, este texto contribuye al desarrollo de un vocabulario jurídico que nos permita, en primera instancia, describir este nuevo ejercicio de poder algorítmico como un fenómeno jurídico y, en segundo lugar, pensar normativamente diversos modelos para su regulación, con el objetivo de promover la protección de los derechos humanos. La mayoría de la literatura jurídica existente, enfocada en debates como el habas data o la privacidad, tiende a ignorar el hecho de que el ejercicio de poder mediante algoritmos tiene características particulares, esencialmente diferentes de otras tecnologías, como la internet. En consecuencia, carecemos de un vocabulario preciso que nos permita pensar la autoridad algorítmica en términos jurídicos y, en particular (como veremos más adelante), en términos de derecho público.
Este artículo busca contribuir a llenar este vacío, y propone cuatro elementos para el desarrollo de un marco conceptual que pueda regular ese ejercicio de poder: (1) autoridad algorítmica, (2) lex algorítmica, (3) autonomía y (4) transparencia. Así, más que proponer un argumento específico respecto a la responsabilidad algorítmica, este texto busca fijar los pilares de un marco jurídico que permita la protección efectiva de los derechos humanos en la era del big data, y sentar así la base para modos argumentativos y doctrinas jurídicas ajustados al proceso tecnológico que buscan regular.
Para hacerlo, la siguiente sección hace una introducción a los sistemas automatizados de decisión: el lector con conocimiento de éstos puede omitirla sin ningún problema. Luego, las siguientes secciones presentan los cuatro elementos del marco conceptual propuesto. La última sección presenta unas breves conclusiones.
1. PARA ENTENDER LOS SISTEMAS AUTOMATIZADOS DE DECISIÓN
Como se sugirió en la introducción, el primer paso para entender los sistemas automatizados de decisión es familiarizarse con el big data15. A pesar de que no existe un definición técnica, es posible caracterizar el big data como información de altísimo volumen (tera o aún petabytes), que es recopilada a muy alta velocidad (es decir, creada en casi tiempo real), y que es diversa en su variedad (compuesta por información estructurada y desestructurada), exhaustiva (en el sentido de que busca capturar poblaciones o sistemas enteros), de alta definición (pues permite hacer índices o búsquedas con relativa facilidad, y mantiene el rigor de la información aun en una escala granular) y que es relacional en sus características (en la medida en que permite relacionar la información con aquella contenida en otras bases de datos)16. Así, lo nuevo y diferente del big data no es sólo su volumen (que ya de por sí es extraordinario), sino también (y sobre todo) lo que se puede hacer con la información a muy bajo costo.
El big data alimenta la operación de algoritmos; estos son “un conjunto ordenado y finito de operaciones que permite hallar la solución de un problema”17. Así, una receta de cocina, por ejemplo, puede ser considerada un algoritmo. En el contexto digital, sin embargo, las operaciones son implementadas por computadores, que siguen las instrucciones reflejadas en el “código”, que no es otra cosa que la expresión concreta, en cierto lenguaje de programación, de las operaciones abstractas del algoritmo. A su vez, el algoritmo describe operaciones que se han de realizar respecto a los datos recopilados (el “input”), los cuales son, por definición, externos al programa.
Ahora bien, los algoritmos pueden consistir en una serie de instrucciones que se repiten estáticamente: si se quiere conseguir el resultado X, primero debe hacer el paso uno, después el paso dos, finalmente el paso tres, y así, siempre. Pero el algoritmo también puede incluir instrucciones para que el programa busque mejorar su desempeño en conseguir el resultado X, y varíe los pasos en virtud de ese objetivo. En este sentido, el programa “aprende”, porque su desempeño respecto a cierta tarea mejora en virtud de su experiencia. Esta es la idea de “machine learning”, o “aprendizaje autónomo”, en la cual el algoritmo incluye la orden de analizar los datos para “decidir” cuál es el siguiente paso, con el objetivo de mejorar el desempeño.
El término “machine learning” existe desde 1959, y desde entonces se han desarrollado técnicas que logran, de una forma u otra, el proceso de aprendizaje descrito18. Sin embargo, la importante transformación reciente aparece, nuevamente, en virtud los dos cambios paralelos: big data y aumento de capacidad computacional. Gran parte del aprendizaje autónomo ocurre mediante el reconocimiento de patrones: el programa es capaz de encontrarlos en una base de datos y de aplicar automáticamente esos patrones a otra base de datos para tomar una “decisión” o hacer una predicción. Un ejemplo son los servicios de streaming de música: el programa analiza mis selecciones musicales previas, y con base en esa información busca artistas que tengan las mismas características y me “propone” un artista que no conozco y me puede gustar. Por lo tanto, cuanto más rica sea la base de datos (en el ejemplo, cuantas más canciones marque yo como “me gusta”), más puede “aprender” el programa, y mejor se vuelve para lograr su objetivo (en el ejemplo, más acertadas serán las recomendaciones).
Los desarrollos recientes más importantes del género aprendizaje autónomo se han dado en una de sus especies, el “deep learning”. Este proceso se basa en una estructura de varias capas de algoritmos, llamada “red neural artificial”, que está inspirada en la estructura biológica de las neuronas en cerebro humano. En esta red, los datos pasan por una capa del algoritmo, que los transforma y los pasa a la siguiente capa, que a su vez los transforma para lograr su cometido —de ahí el nombre “deep learning”: cuantas más capas de algoritmos haya, más “profunda” será la red neural.
Lo importante de la red neural, sin embargo, es que no lo hace mediante el reconocimiento de patrones dados por el programador (como lo hace el machine learning), sino mediante ejemplos, de los cuales extrae autónomamente patrones para aplicarlos a una nueva base de datos. Así, supongamos que queremos un programa que sepa reconocer, de manera autónoma, imágenes de vacas y de pájaros. En machine learning, se alimenta al algoritmo con una gran base de datos de fotos de vacas y pájaros, y se le “enseña” a identificar en ellas características escogidas por el programador como propias de cada animal: por ejemplo, “cuernos” y “pico”. El programa entonces ya “aprende” a identificar imágenes de vacas y pájaros en grandes bases de datos como Facebook o imágenes satelitales. En deep learning, por el contrario, el programador no da las características que deben buscarse en la base de datos (“cuernos”), sino que alimenta directamente las imágenes de entrenamiento19, y el programa autónomamente extrae sus características para aplicarlas a una nueva base de datos, diferente de los datos de entrenamiento. En consecuencia, el programador no necesita saber las características de la imagen de vaca o de pájaro: el programa las identifica y “aprende” autónomamente, y puede hacer predicciones sobre una nueva base de datos respecto a la presencia de una vaca o un pájaro.
2. ¿CÓMO EMPEZAR A PENSAR LA PROTECCIÓN DE LOS DERECHOS HUMANOS EN LA ERA DEL “BIG DATA”? CUATRO ELEMENTOS PARA LA CONSTRUCCIÓN DE UN MARCO CONCEPTUAL
El resumen anterior no busca ser exhaustivo. Sí busca, sin embargo, poner de presente las características de la tecnología algorítmica que dejan claro que, en este punto de la discusión, el desafío central no parece ser formular nuevos principios jurídicos o positivizar nuevos derechos humanos, sino desarrollar marcos cognitivos (o heurísticos, si se quiere) que permitan una efectiva protección de los derechos humanos en la era del big data20. En lo que resta de este artículo, presentaré cuatro pilares que ayuden a los operadores jurídicos en esta tarea: autoridad algorítmica, lex algorítmica, autonomía algorítmica y transparencia21. A continuación se explora cada uno de ellos.
2.1. Autoridad algorítmica
Los procesos de aprendizaje autónomo y deep learning son algunas veces llamados “inteligencia artificial”, un término general que puede incluir numerosas técnicas específicas en este campo22, con innumerables ámbitos de aplicación: desde la creación autónoma de textos y la clasificación de objetos hasta la traducción autónoma de textos y la tecnología que permite el funcionamiento de carros autónomos. En la mayoría de estas aplicaciones los procesos de decisión automatizada se encuentran insertos en dinámicas comerciales reguladas por una combinación de obligaciones contractuales y protección de propiedad intelectual que las mantienen, en general, fuera del radar del juez constitucional y de derechos humanos.
Sin embargo, los procesos de decisión autónomos se usan en ocasiones para cumplir funciones estatales, o son usados por particulares de forma tal que pueden poner en riesgo los derechos humanos. En estos dos casos, estamos ante el ejercicio de una verdadera autoridad algorítmica, que tiene, al menos, cuatro características:
– Es “autoridad”, pues se trata de un ejercicio de la capacidad de determinar, mediante el uso de algoritmos, el comportamiento de un individuo o entidad23.
– Es transnacional, en el sentido de que esta capacidad se ejerce, en la mayoría de los casos, en el marco de interacciones transnacionales, que involucran actores ubicados en diversos estados.
– Es ejercida por actores públicos (en el sentido de que estén creados por el derecho público de la respectiva jurisdicción) o privados (como las diversas compañías que prestan servicios).
– Y tiene un potencial de afectación de derechos humanos, porque un actor privado los pone en riesgo o bien porque el ejercicio de la autoridad pública se hace mediante procesos algorítmicos.
Es importante no confundir este ejercicio específico de autoridad con un concepto más amplio de poder. El concepto de autoridad aquí sugerido implica un ejercicio concreto de poder, contenido y movilizado en una cierta decisión adoptada por medios algorítmicos, sea esta pública o privada24. Esta distinción entre autoridad y poder algorítmico es importante, toda vez que mientras que la primera cuenta con unas características propias y diferenciables, el segundo no las tiene. Así, mientras que la autoridad algorítmica es un vehículo específico de poder, el poder que mediante ella se ejerce no es nada diferente de aquel que surge de las estructuras sociales existentes más allá del uso de algoritmos.
Esta diferencia entre poder (en general) y autoridad algorítmica (en particular) implica que las relaciones forjadas mediante el ejercicio de autoridad algorítmica reflejan las diferencias de poder que subyacen a la sociedad en la cual tal poder se ejerce. Como se recordará, los procesos de decisión automatizada toman sus datos (“aprenden”) de una descripción ya existente de la realidad —sea ésta dada por el programador o reflejada en datos sin procesar—. Es decir, serán los criterios de un programador humano o, en procesos de deep learning, serán los materiales descriptivos de la realidad ya desarrollados por humanos (las fotos, los textos, videos o audios) los que “eduquen” a los programas. Por lo tanto, el algoritmo “aprenderá” las diferencias de poder que se vean reflejadas en los materiales que se le provean, o por los prejuicios del programador. Una sociedad machista produce datos machistas (por ejemplo, pornografía), del cual el proceso de aprendizaje autónomo extraerá patrones machistas, que aplicará después a una nueva base de datos para extraer conclusiones machistas. Así, es equivocado pensar que un “algoritmo es machista”: machista es la interacción entre los humanos, y por lo tanto la sociedad en la que opera el algoritmo, que los procesos de aprendizaje autónomo reflejan.
Tal continuidad entre las estructuras profundas de poder en la sociedad humana y la autoridad algorítmica implica que, como todo ejercicio concreto de poder, esta última es también un mecanismo de distribución de recursos. El riesgo, en este caso, es doble: por una parte, que la aparente objetividad de los procesos de toma de decisión autónomos termine perpetuando desigualdades en términos de distribución —la autoridad algorítmica, en este sentido, puede generar un barniz de aceptabilidad técnica a la cristalización desigualdades sociales—; por otra parte, la autoridad algorítmica como mecanismo de distribución de bienes y servicios esenciales puede limitar de manera significativa la capacidad de los ciudadanos para entender y cuestionar las razones detrás de la provisión de tales servicios, pues las puede hacer más opacas, y en consecuencia más difíciles de cuestionar o controvertir.
Finalmente, el papel distributivo de la autoridad algorítmica no se restringe a la capacidad de distribuir bienes y servicios en la sociedad humana, sino también a la distribución de la capacidad misma de sentir y registrar la realidad, mediante la cual se generan los datos que alimentarán el proceso de aprendizaje del algoritmo. Como hemos visto, los procesos de decisión autónoma se alimentan de data, sin la cual proceso mismo de aprendizaje autónomo es imposible. Así, el ejercicio de poder es no solo de aquel que desarrolla y administra el algoritmo, sino de aquel que genera los datos que lo “educan”25. En la práctica, hay tres opciones para conseguir esos datos: o el usuario desarrolla él mismo sus propias bases de datos, o las compra, o las extrae de fuentes públicas26. El problema es que la primera opción en realidad solo está disponible para algunas firmas multinacionales extraordinariamente grandes, o para las fuerzas militares de países muy ricos, y la tercera puede generar bases de datos que no son del todo confiables para ciertas funciones estatales. Por lo tanto, el ejercicio de autoridad algorítmica en América Latina probablemente dependerá de la compra de acceso a data a alguna de las grandes empresas, que disponen en varios órdenes de magnitud de más información que cualquier gobierno de la región. Es socialmente significativo, por lo tanto, considerar los efectos de la autoridad algorítmica no solo en la distribución de los recursos de la sociedad, sino también en la distribución de la altamente especializada capacidad de percibir (digitalmente) la realidad, y probablemente coproducirla para efectos del ejercicio de autoridad local27.
Como puede verse, los procesos sociales de desigualdad, discriminación y arbitrariedad son realizados por humanos en contra de humanos: los procesos de decisión autónoma simplemente reproducen o dan efecto a relaciones de poder ya existentes. Los efectos de la autoridad algorítmica siempre estarán en las relaciones entre humanos28. La noción de autoridad algorítmica, en consecuencia, no implica un espacio de poder diferente a la sociedad humana en la que todos habitamos. Sin embargo, sí implica una forma particular de ejercer ese poder, que merece un marco regulador particular, al cual giramos ahora, en la siguiente definición.
2.2. En contra de la “lex algorítmica”
La autoridad algorítmica tiene características específicas que exigen una forma esencialmente diferente de pensar su regulación. Dada la complejidad técnica de algunas de estas tecnologías, es previsible que un modelo de regulación que se proponga (particularmente por parte de las empresas dueñas de los algoritmos) sea el de la autorregulación de la industria29. Esta es la forma en que, por ejemplo, la internet fue inicialmente regulada, mediante la Internet Engineering Task Force (IETF), el World Wide Web Consortium (W3C) y, sobre todo, la Internet Corporation for Assigned Names and Numbers (ICANN)30.
Así, de la misma forma en que los últimos veinte años han visto el surgimiento de una nueva lex mercatoria, en la cual complejas transacciones comerciales transnacionales han dado lugar al surgimiento de una verdadera codificación paralela al derecho nacional e internacional aplicable31, es posible que el giro hacia la autorregulación de los procesos lleve a la defensa de una nueva lex algorítmica: un complejo regulatorio de estándares, procesos y guías adoptados por la industria para hacer los algorítmicos más responsables, que opere de manera paralela de los estándares nacionales e internacionales relevantes, protegida por las limitaciones jurisdiccionales propias de la naturaleza transnacional de los procesos de decisión autónomos.
Aún más: gran parte del trabajo actual respecto a la responsabilidad de algoritmos está enfocado en la integración de estándares de responsabilidad dentro del algoritmo: es decir, que el proceso sea “fair by design”, sin la intervención de regulación externa32. En este marco, la idea misma de “regulación” pierde sentido, en la medida en que colapsa la distinción básica entre la práctica que va a ser regulada y el conjunto de prescripciones, aun si son autoimpuestas, que recaen sobre tal práctica.
Así, a pesar de que los esfuerzos de autorregulación y de adaptación interna del algoritmo deben ser bienvenidos, la realidad es que la lex algorítmica como régimen autocontenido y fuente única de responsabilidad algorítmica es riesgosa, y se debe evitar. En particular, los efectos de las técnicas de decisión algorítmica sobrepasan el ámbito estrictamente comercial y se vuelven relevantes en términos de derecho público cuando se trata del ejercicio de autoridad algorítmica, esto es, cuando el Estado las utiliza para cumplir sus funciones, o cuando arriesgan afectar los derechos humanos al ser utilizadas por particulares. Esto no quiere decir, por supuesto, que la adopción de estándares y procedimientos por parte de la industria sea indeseable, pero sí implica que la autorregulación debe someterse a un marco general de derecho público —incluidos, en particular, los estándares nacionales e internacionales de derechos humanos relevantes33.
La necesidad de aplicar un marco de derecho público resulta clara cuando considera el uso de procesos de decisión autónoma para cumplir funciones estatales. En Estados Unidos se usan con frecuencia los algoritmos para calcular el riesgo de reincidencia de personas condenadas en proceso penal34. Estas herramientas, la más famosa de las cuales es el Correctional Offender Management Profiling for Alternative Sanctions (COMPAS), de la compañía Northpointe, hacen un cuestionario al condenado que incluye información sobre edad, delito y condenas previas (pero, de manera importante, no sobre su raza), así como otra información sobre la vida del condenado (“¿Su padre ha sido arrestado?”, “¿Fue usted suspendido o expulsado de su escuela?”35), y le asignan un cierto puntaje que refleja su probabilidad de reincidencia, el cual se comunica a los jueces al momento de establecer la pena36.
Por razones obvias, el uso de estas herramientas ha sido controversial. Por una parte, algunos han afirmado que el algoritmo otorga peores puntajes a hombres de raza negra37 (es decir, les asigna una mayor probabilidad de reincidencia), mientras que otros sostienen que el COMPAS no aporta nada nuevo en comparación con la predicción que podría hacer un humano con un nivel mínimo de información38. Sea cual fuere el caso, resulta claro que este algoritmo va más allá de la relación contractual entre el proveedor del servicio y su cliente, y que debe estar sujeto a un marco de derecho público y, por implicación, de protección de los derechos humanos.
Lo mismo ocurre con la segunda dimensión de la autoridad algorítmica: el uso, por parte de particulares, de sistemas de decisión autónoma que puedan afectar los derechos humanos. Ejemplos abundan, aunque probablemente el más cercano para muchos sean los sistemas de puntaje crediticio, como Datacrédito en Colombia, Inforcorp en Perú, o Dicom en Chile. Hasta muy recientemente, las centrales de riesgo registraban el comportamiento crediticio pasado de los consumidores, pero no adelantaban procesos de decisión autónoma sobre ellos. Sin embargo, muchos de estos operadores locales han sido adquiridos por compañías multinacionales, cuyo modelo de negocios es el uso de procesos algorítmicos para generar valor agregado sobre las bases de datos de cumplimientos o incumplimientos pasados. En particular, los proveedores crean sistemas de puntajes crediticios que, de forma similar al COMPAS, procuran predecir la probabilidad de incumplimiento crediticio. Así, Datacrédito en Colombia es ahora parte de Experian, desarrolladores de FICO (el sistema de puntaje crediticio más usado en Estados Unidos), mientras que Infocorp del Perú y Dicom de Chile son parte de Equifax, otra importante multinacional de los puntajes crediticios. En estos casos, el uso de procesos algorítmicos por parte de particulares puede poner en riesgo los derechos humanos, pero lo hace de manera diferente al riesgo que implicaba el uso de bases de datos estáticas, las cuales han sido objeto de amplio tratamiento constitucional39: mientras que en estas últimas el problema es uno de veracidad, transparencia y acceso a la información, en el proceso algorítmico el problema radica en el efecto del cálculo, pues el problema de transparencia y veracidad de la información, como veremos más adelante, no tiene sentido en este contexto. Todo lo anterior genera un marco de responsabilidad que va más allá de la relación contractual entre las centrales de riesgo y sus usuarios, y exige la aplicación de un marco de derecho público.
Ahora bien: rechazar como normativamente indeseable una lex algorítmica autocontenida y argumentar, por el contrario, a favor del sometimiento de la autoridad algorítmica a un marco de derecho público implica afirmar un horizonte normativo privilegiado para este último que se debe explicar. En contra de las lecturas que argumentan el colapso de la dicotomía público/privado40, mi argumento acepta que el carácter “público” de ciertas normas implica que éstas se presentan “no como una serie de ordenes por parte de los poderosos [o] unas reglas reconocidas por una elite, sino como unas normas adoptadas públicamente, y en el nombre del público […] y que las personas del común pueden apropiar como suyas, en tanto son parte del público”41. En este sentido, aún si es claro que la distinción público/privado se puede usar para fines ideológicos42, también es cierto que cuando se adopta una norma jurídica en nombre de la comunidad (y no en nombre del interés de uno de los actores de ella), tal norma genera una pretensión de carácter público la cual, aún si incumplida en la práctica, crea un horizonte normativo diferente al del derecho privado —y es normativamente más deseable que un esquema de autorregulación como lo sería la lex algorítmica—. En consecuencia, es en el marco de ese horizonte normativo propio del derecho público donde debe evaluarse la autoridad algorítmica, y no en el marco del derecho privado y de las normas creadas por los actores del mercado algorítmico.
2.3. Autonomía algorítmica
El marco de derecho público aplicable a la autoridad algorítmica debe entrar a operar respecto a procesos informáticos que se caracterizan por su autonomía —y ese es, precisamente, el tercer concepto que debemos definir—. El problema central surge porque, como hemos visto, el ejercicio de la autoridad algorítmica puede mostrar cierto nivel de independencia de los programadores, o de los operarios del programa. Esta es la idea que, como hemos visto, coloquialmente se conoce como “inteligencia artificial”: cierta capacidad de “aprender” de manera parecida a un humano, para después aplicar este “conocimiento” de manera independiente de los humanos, lo cual hace a los procesos de decisión autónoma cualitativamente diferentes de otras tecnologías importantes en nuestra época, como la internet43.
El primer paso para empezar a pensar la autonomía algorítmica es rechazar la denominada “falacia del homúnculo”, consistente en la idea de pensar que hay un “agente” tomando las “decisiones” autónomas del programa: una especie de personita, de golem, que llega a conclusiones buenas o malas44. Pero no hay tal personita: el algoritmo no es un agente al que se le pueda asignar “responsabilidad” ni hacer un reproche ético. El reproche surge respecto al tipo de interacción humana que el proceso de decisión autónoma permite: como ya hemos discutido, a pesar de que la autoridad algorítmica tiene características particulares, su ejercicio refleja las estructuras de poder en la sociedad humana y es inescindible de ellas. Sólo en el contexto de la sociedad humana tiene sentido el reproche al algoritmo. En consecuencia, las doctrinas jurídicas que impliquen un título de imputación de responsabilidad basado en algún tipo de reproche de conducta (como el dolo o la culpa en derecho penal, la negligencia en derecho civil, o falla del servicio en derecho administrativo) no pueden predicarse respecto al algoritmo en sí mismo, sino del humano que lo utiliza. La autonomía algorítmica, aunque ciertamente existente, no implica un destinatario no-humano del reproche ético o jurídico.
Por supuesto, en ocasiones habrá un incentivo ideológico para “culpar” al algoritmo: la “falacia del homúnculo” permite lo que Balkin ha llamado el “efecto de sustitución”45, en virtud del cual el debate público se centra en un fetichizado proceso de decisión autónoma, como si se tratara de un “agente” con el poder mágico de afectar la vida de los humanos, en lugar de enfocarse en las profundas diferencias de poder que se reflejan en el algoritmo. Al igual que, en virtud del fetichismo de las mercaderías, la trabajadora alienada habita un mundo fantasmagórico poblado de objetos que ella hizo, pero que le son ajenos y extraños46, así mismo el fetichismo del algoritmo nos ubica en un mundo de “máquinas pensantes” que son ajenas a la comunidad humana, de las cuales todos somos potenciales víctimas. Pero esta descripción es ideológica, en el sentido clásico de implicar la movilización de significados para la perpetuación de estructuras de dominación47: las supuestas “máquinas pensantes” en realidad operan en función de relaciones humanas de poder, y sobrevalorar su autonomía solo sirve para distraer de las relaciones de poder que las subyacen.
Ahora bien: partir de las relaciones humanas y sólo entonces moverse hacia los procesos de decisión automatizados nos permite comenzar a pensar en la imposición de límites externos a la autonomía algorítmica, más allá de los límites técnicos. En este punto, el concepto de dignidad humana resulta central para el argumento48. La aplicación de un marco de derecho público implica, por necesidad, la aplicación del concepto de dignidad humana, el cual inspira los tratados centrales de derechos humanos, y numerosas constituciones nacionales —en particular, el artículo 1.1 de la Ley Fundamental alemana de 1949, el cual influyó de manera importante en los sistemas latinoamericanos49.
Aun dando espacio para sus diferentes interpretaciones, el principio de dignidad humana tiene, como mínimo, dos dimensiones: por una parte, un aspecto ontológico, referido al respeto al valor inherente del ser humano (esto es, la conocida formula kantiana de que el humano es un fin en sí mismo, y no el medio para un fin) y, por otra, un aspecto relacional, que exige el respeto de ese valor inherente en las interacciones sociales, sean entre particulares o de particulares con el Estado50. Es este segundo aspecto el que resulta problemático en el contexto de los procesos de decisión autónoma pues, en su más básica manifestación, el reconocimiento de la dignidad humana requiere el reconocimiento de la humanidad en el otro, la cual sólo puede surgir de la propia humanidad, cuyo vínculo con la humanidad del otro cimenta, en últimas, el carácter “digno” de la comunidad51. El problema con la autoridad algorítmica, en ese sentido, no es la dimensión ontológica de la dignidad: a pesar de que el concepto de dignidad es obviamente difícil de programar, no parece existir ningún obstáculo conceptual para programar operaciones que reflejen el valor no-instrumental del ser humano en ciertas tareas, o para que el patrón de reconocimiento del valor no-instrumental en ciertas tareas sea “aprendido” de materiales de entrenamiento apropiados. El desafío conceptual está en que el programa no podrá reconocer la humanidad del otro, y por lo tanto resultaría imposible, por definición, forjar el vínculo de humanidad que requiere la dimensión relacional de la dignidad.
La dificultad que impone la aplicación de la dignidad humana en el contexto de la autonomía algorítmica puede generar dos reacciones. En primer lugar, una estrategia de regulación puede ser la creación de una categoría de decisiones que, en virtud del principio de dignidad humana, simplemente no puedan ser sujetas a procesos de decisión autónomos, aún si son técnicamente automatizables. Estas serían decisiones no automatizables, por principio.
Ese puede ser el caso, por ejemplo, de los sistemas de armamento letales completamente autónomos —esto es, sistemas de armamento con la capacidad de escoger a sus objetivos y eliminarlos de manera independiente del humano52—. El principio de dignidad exige que cada persona sea considerada única, para lograr generar el vínculo de humanidad antes mencionado. Sin embargo, el proceso de decisión autónoma necesariamente impide que la persona que se va a matar sea considerada única, pues requiere que se le considere un caso de la regla diseñada de antemano por el programador, o expresión del patrón extraído autónomamente por el algoritmo. En cualquiera de los dos casos, la acción de matar se realiza siguiendo unos pasos definidos antes del encuentro letal, cuando no se sabía quién habría de verse envuelto en éste.
Por lo tanto, la consideración de la persona específica que se va a matar es lógicamente imposible, de modo que el vínculo de humanidad no se genera, lo cual hace que las armas letales autónomas sean inherentemente contrarias a la dignidad humana53. En este sentido, puede existir un límite constitucional externo a aceptar ciertas decisiones autónomas (aún si son técnicamente posibles), como lo han sostenido, con respecto a las armas letales autónomas, miles de expertos, juristas y empresarios de la tecnología que llamaron, en el 2015 y en el 2017, a una prohibición completa de tales sistemas54.
Menos estricta que la prohibición completa es la noción de “control humano significativo55” o, fuera de contextos de armamento autónomo, la idea de mantener a un humano en el proceso de decisión56. La idea central en este caso es que el principio de dignidad humana requiere, si bien no la prohibición absoluta de automatización de ciertas decisiones, sí la creación de espacios algorítmicos para que un humano pueda revisar y retractar de manera efectiva la “decisión” del algoritmo, de ser necesario. A pesar de sonar razonable, la realidad es que esta aproximación es difícil de concretar pues, al menos en el área de uso de la fuerza, es poco claro qué significa “control efectivo” en el diseño del algoritmo57: ¿implica, por ejemplo, que un humano deba aprobar cada acción letal? ¿O que un humano deba ser informado de las acciones más riesgosas? Y si es este último caso, ¿la priorización de acciones debe, a su vez, ser sujeta a control humano efectivo? Además, en ocasiones la idea de un humano en el proceso de decisión (por ejemplo, un soldado) puede ser simplemente una forma de asignar responsabilidad jurídica a una persona que, en el marco general del proceso de decisiones, en realidad carece del poder fáctico de contradecir el resultado del proceso algorítmico58.
Este tipo de problemas limita la susceptibilidad del humano de recibir reproche ético o jurídico, pero, como vimos, tampoco convierte al algoritmo en el agente responsable. En realidad, el principio de control humano efectivo, o alguno de sus equivalentes, exige una ponderación del control efectivo humano en la interacción máquina-humano, para lo cual doctrinas ya existentes, como responsabilidad por mando en derecho penal internacional o la atribución por actos de particulares en responsabilidad internacional del Estado, pueden servir de punto de partida.
A pesar de estos desafíos, el derecho europeo creó explícitamente el derecho a tener un humano en el proceso de decisión. Así, el Reglamento Europeo de Protección de Datos del 2016 (Reglamento [UE] 2016/679, con efectos a partir del 2018)59 estableció en su considerando 71 y artículo 22 que el interesado tiene derecho a no ser objeto de una decisión basada únicamente en el tratamiento automatizado, incluida la elaboración de perfiles, que produzca efectos jurídicos, o lo afecte de modo similar. Se trata, en la práctica, del primer instrumento jurídico vinculante que genera el derecho subjetivo a tener un humano en el proceso de decisión algorítmica, que probablemente exija el rediseño de los algoritmos existentes en la actualidad (o el menos respecto a su operación en jurisdicción europea)60. Aún con sus limitaciones61, la experiencia de esta regulación generará un espacio interesante para aprender los efectos prácticos de la idea de “control humano” a futuro.
2.4. Transparencia algorítmica
El derecho a exigir la presencia de un humano en el proceso automatizado de toma de decisiones señala el último elemento que merece un desarrollo particular para la aplicación de un marco de derecho público a la autoridad algorítmica: el problema de la transparencia. El desafío, en general, se ha planteado en términos de una “caja negra”62. Los procesos de decisión autónomos son opacos, en el sentido de que se conoce la entrada y el resultado, pero no se sabe de manera específica el proceso que llevó de uno al otro. Esta opacidad, aunada al hecho de que el proceso algorítmico reviste suresultado con un velo de objetividad e inevitabilidad, ha llamado a que se busque mayor transparencia, “abrir el algoritmo”, para que se explique y los humanos puedan entenderlo. Esta es, nuevamente, la opción que siguió el Reglamento Europeo de Protección de Datos, el cual establece que además de los derechos a conocer y cuestionar la información almacenada (estándar en materia de habeas data), las personas tienen el derecho a recibir una “explicación” de la “decisión” adoptada mediante la creación de perfiles (en los términos del considerando 71) y a recibir información significativa respecto a la “lógica aplicada” en ciertas decisiones automatizadas que afectan sus derechos (en los términos de los artículos 13.2.f y 14.2.g).
El instinto que inspira el reclamo de mayor transparencia es entendible. De la misma forma en que el ejercicio de la autoridad informal llevó la exigencia de estándares de transparencia en la gobernanza global63, así también la autoridad algorítmica debe estar sujeta a estándares de transparencia. Y, por supuesto, así como los estándares de habeas data en términos de colección y almacenamiento de datos son una garantía necesaria, la posibilidad de conocer, en la medida en que sea posible, el proceso de análisis de datos sería también una garantía clave.
Sin embargo, el problema radica en que la transparencia, en el sentido de conocer la “lógica” del resultado de la decisión autónoma, es actualmente problemática. Como hemos visto, los procesos de machine learning y, sobre todo, los de deep learning consisten en millones de operaciones cuya “lógica” difícilmente se puede describir al humano —ese es precisamente el punto del reconocimiento de patrones: detectar lo que el humano no puede detectar—. Ordenar transparencia directa, como la que se le pediría a una agencia reguladora que adopta una decisión, parecería ser una solución poco ajustada al problema que se plantea.
Piénsese, por ejemplo, en instancias de discriminación algorítmica. El COMPAS, la plataforma de predicción de reincidencia reseñada antes, señalaba sistemáticamente a los hombres negros como más proclives a la reincidencia64. El proceso de reconocimiento de fotos de Google, un ejemplo típico de machine learning, categorizó fotos de personas de raza negra como “gorilas”65. Y el algoritmo de anuncios de Google tendió en un momento dado a mostrar a las mujeres menos anuncios de los trabajos mejor pagos66.
En todos estos ejemplos, el llamado a la transparencia directa puede eliminar una primera capa de prácticas discriminatorias. Es posible que un programador hubiese reflejado sus prejuicios raciales o de género en algún conjunto de criterios de clasificación en la base de datos de entrenamiento de Google Photos o de Google Ads. Pero esto es poco probable, y sería irrelevante en procesos de deep learning, donde el algoritmo “aprende” de enormes bases de datos de ejemplos.
Lo más probable es, entonces, que esta discriminación no sea intencional, sino que derive de los patrones en bases de datos que, como hemos visto, reflejan estructuras de discriminación en la sociedad. Por supuesto, la ausencia de intención no hace que el resultado del proceso de decisión autónomo deje de ser discriminatorio, lo cual refleja el estado del arte en derecho antidiscriminación actual. Sin embargo, la ausencia de intención sí implica que un llamado a la transparencia directa parece poco efectivo para solucionar este problema. Un algoritmo neutro puede tener efectos discriminatorios en virtud de la base de datos de la cual “aprende”. Este es el resultado de la continuidad entre estructuras de poder social y autoridad algorítmica, antes comentada.
Existe al menos un precedente que muestra la limitación de una concepción directa de transparencia. En Wisconsin, Estados Unidos, Eric Loomis, un detenido cuya pena había sido decidida en parte con base en un reporte del COMPAS, buscó cuestionar la constitucionalidad del uso del algoritmo, afirmando que éste violaba su debido proceso por desconocer la forma en que se calculó el puntaje67. Toda vez que el algoritmo estaba protegido por derechos de propiedad intelectual, Northpointe, la compañía que lo produce, se negó a entregar la información.
Ahora bien: ante esa negativa, el detenido buscaba (entre otras cosas) que Northpointe revelara el código del COMPAS, esto es, como se recordará, la expresión del algoritmo en un lenguaje de programación. El punto central es que Loomis sabía qué información tenía el COMPAS sobre él (él había llenado el cuestionario), pero no sabía cómo se derivaba de esa información el puntaje que se le había asignado68. La Corte negó esta pretensión, con el argumento, entre otros, de que el debido proceso no se había violado, pues Loomis tenía el derecho de acceder y verificar la información sobre él con que se alimentaba al algoritmo —un típico argumento de habeas data respecto a bases de datos estáticas, analíticamente similar al que ha desarrollado la Corte Constitucional colombiana respecto a Datacrédito.
Sin embargo, la Corte subrayó su escepticismo respecto al uso indiscriminado de la herramienta. Prohibió a los jueces basar una decisión exclusivamente en el puntaje del algoritmo y exigió que, en adelante, cuando se usaran los puntajes, se introdujera lenguaje para el efecto de advertir que el carácter privado del algoritmo impide saber cómo se calcularon los puntajes, al tiempo que advirtió también, entre otras, que estudios han sugerido que los puntajes clasifican de manera desproporcionada a condenados pertenecientes a minorías como más proclives a la reincidencia69.
Loomis ilustra tres tensiones subyacentes en términos de transparencia. Por una parte, es crucial resaltar el papel que cumple la protección de la propiedad intelectual para impedir la aplicación de un marco de derecho público a la autoridad algorítmica. A pesar de que en este caso parecería existir un interés público en que el derecho de propiedad intelectual se viera limitado ante los imperativos del debido proceso, en la práctica tanto el estado de Wisconsin como el Gobierno Federal manifestaron, en sus respectivos escritos, que el derecho de propiedad intelectual no planteaba obstáculo alguno, pues el condenado podía conocer la información que entraba al algoritmo70. En este sentido, la visión del algoritmo como una simple base de datos terminó beneficiando la protección de la propiedad intelectual, en posible detrimento del debido proceso de Loomis.
En segundo lugar, como debe resultar claro en este punto de la discusión, el código no es la información más importante para efectos de la decisión autónoma. Por lo tanto, el estándar de transparencia directa (“conocer el código, que está protegido por la propiedad intelectual”) que debaten el demandante, el estado y el Gobierno Federal no es el más relevante. Se trata, en últimas, de la identificación del problema jurídico equivocado: lo importante son los datos que se usaron para “entrenar” al COMPAS71. Pero nadie discutió ese punto. Aún si la Corte hubiese accedido a que Northpointe entregara el código, la pretensión no habría solucionado el problema planteado por Loomis: al igual que con el caso de Google mencionado antes, se sabe que el código del COMPAS no incluye explícitamente categorías sospechosas de discriminación (como etnicidad) como criterio para otorgar el puntaje de predicción de reincidencia.
Esta situación plantea la tercera tensión que subyace al problema de la transparencia. Los procesos de decisión autónomos existen precisamente para extraer patrones de cierta información. Los patrones pueden reflejar categorías sospechosas de discriminación (como la raza o el género), aun si los criterios explícitos programados o los datos de entrenamiento en casos de deep learning no lo hacen. Así, como vimos en la anécdota de la joven embarazada con la que abre este artículo, el proceso de decisión autónomo predice el género de una persona con base en sus hábitos de compra, y permite discriminar con base en una categoría sospechosa (género). Este no es un error: es exactamente lo que el proceso de decisión autónoma debe hacer, y que el humano no puede. De igual forma, ciertos procesos de deep learning en reconocimiento facial han logrado predecir la orientación sexual de hombres con un 91% de éxito, y de mujeres en un 83%72. Así, cinco fotos por persona, sin mención alguna a la orientación sexual, permiten generar una clasificación con base en una categoría prohibida, con obvios efectos en los derechos humanos. Y lo mismo ocurre con la etnicidad o la condición socioeconómica y las direcciones de vivienda en algoritmos de predicción de reincidencia: un algoritmo entrenado con datos históricos de direcciones geográficas de reincidentes puede asignar mayor probabilidad de reincidencia a personas que viven en barrios predominantemente pobres, o de etnicidad minoritaria, con lo cual se genera una discriminación en contra de personas en estas categorías —aún si ellas no aparecen en el código ni en los datos de entrenamiento73.
Ante estos desafíos de transparencia, una primera estrategia es incentivar una cultura de inteligibilidad en el desarrollo de procesos de decisión autónomos. A pesar de las dificultades en la aplicación práctica del Reglamento Europeo de Protección de Datos, el desarrollo de técnicas para hacer comprensibles procesos de deep learning, al menos por parte de expertos, es una línea importante de avance74. Sin embargo, esta línea no genera mayor esperanza en términos de la aplicación de un estándar de transparencia, en términos de derecho público, a la autoridad algorítmica. Aun el trabajo explícitamente desarrollado para hacer más comprensibles ciertas técnicas, como la visualización de redes neurales75, parece estar más allá de la experticia técnica que razonablemente se le puede pedir a un juez de derechos humanos o a un ciudadano. Lo mismo ocurre con la posibilidad de que terceros hagan auditorías externas a los procesos de decisión autónoma: aun si los derechos de propiedad intelectual no imponen un obstáculo a la idea de “algoritmos abiertos”, este proceso requeriría que el auditor entrenase el programa en controversia y buscara interpretar para un juez lo que el programa hizo en su proceso de decisión, lo cual dispara las dificultades ya mencionadas.
En consecuencia, una estrategia exterior al proceso de decisión autónomo es enfocar el requisito de transparencia no en el algoritmo pensado de manera aislada sino en su interacción con la realidad social76. Se trata, si se quiere, de buscar la transparencia de la interfase humano-máquina, particularmente respecto a los efectos del uso del algoritmo en la distribución de recursos en la sociedad humana. Así, la discusión relevante de transparencia no sería respecto al código (como ocurrió en Loomis) y su propiedad intelectual, y ni siquiera respecto a los datos de entrenamiento del algoritmo, sino respecto al impacto del algoritmo en la sociedad: al margen de su motivación y diseño, ¿tiene este proceso de decisión autónoma un efecto desproporcionado en una población específica? Esta pregunta es familiar en términos de derecho de los derechos humanos, el cual ha desarrollado numerosas herramientas analíticas para responderla de manera efectiva.
CONCLUSIÓN
Este artículo propone cuatro conceptos que permiten desarrollar nuestro vocabulario jurídico para pensar la protección efectiva de los derechos humanos en la era del big data: autoridad algorítmica, derecho público, autonomía limitada y transparencia. Por supuesto, estos conceptos no agotan la discusión de lo que significa la protección de los derechos en este contexto, pero sí proveen el marco conceptual básico a partir del cual pueden desarrollarse doctrinas jurídicas más específicas, ajustadas al proceso tecnológico que buscan regular.
Como hemos visto, el desafío central yace en reconocer la novedad de la tecnología, pero entender también que ella tiene sentido solo en el contexto de la sociedad humana, donde la tecnología se despliega y donde tiene sus efectos. Así, reconocer la continuidad entre el poder social y la autoridad algorítmica es la clave para el desarrollo de un marco jurídico que permita dar cuenta de los nuevos vehículos de poder y los conecte con las viejas estructuras de injusticia y exclusión que mutan y se reproducen en los más avanzados mecanismos de decisión automatizada.