por Andrés Montero
Adelantemos, ya de entrada, la conclusión: la creación y el uso de modelos computacionales, ejecutados por algoritmos automáticos, basados en el procesado masivo de big data para el perfilado sociodemográfico o psicográfico de ciudadanos, debería estar regulado por una Directiva o un Reglamento de la Unión Europea.
La regulación legal de modelos y algoritmos computacionales aplicados al perfilado social e individual no se propondría sustentarse, como suele ser habitual y casi inercial pensar, en la protección de la privacidad: los bienes jurídicos protegidos serían la dignidad y la igualdad de los ciudadanos contra prácticas discriminatorias, derechos humanos inalienables contemplados en los artículos 1 y 7 de la Declaración Universal de los Derechos Humanos y en el artículo 21 de la Carta Europea de Derechos Fundamentales.
Expresado de otra manera y únicamente con referencia a España: en un futuro próximo, según avanza la concentración de big data bajo el dominio de empresas tecnológicas globales, la potencia de modelos y algoritmos computacionales y su intersección con la inteligencia artificial, y la cesión masiva de datos por parte de los ciudadanos a través de dispositivos digitales; en ese futuro como decimos la creación y el uso de modelos computacionales implementados por algoritmos de inteligencia artificial será conceptualmente anticonstitucional, y también debería serlo legalmente. Y lo será porque los algoritmos computacionales de inteligencia artificial, alimentados por una cantidad masiva y continuada de datos personales identificativos de la mayoría de la población mundial, serán utilizados también masivamente para discriminar a una parte de esa población en el acceso a bienes, servicios y conocimiento en función de sus características sociodemográficas y psicográficas, es decir, en función de su <<raza, color, sexo, idioma, religión, opinión política o de cualquier otra índole, origen nacional o social, posición económica, nacimiento o cualquier otra condición>>, justamente lo que tratan de impedir los marcos legales internacionales sobre derechos humanos. Pasemos a explicar estas conclusiones.
Caja de herramientas para el hackeo social
“Algoritmo” es un término que se ha sobrecargado de mística, pero en realidad no es para tanto; representa una cosa bastante simple: es un conjunto ordenado de reglas que se aplican sobre algo, siempre que ese algo cumpla determinadas características; una vez aplicado el conjunto de reglas, el algoritmo produce un resultado. Por ejemplo, un campo de exterminio nazi era un algoritmo. A partir de unas determinadas características de una persona, un conjunto de reglas nazis (un algoritmo) basada en un modelo de pensamiento nazi (el supremacismo), clasificaba a esa persona, la hacía pasar por una serie de fases ordenadas y sistematizadas que actuaban sobre ella, y producía un resultado fijo: la muerte.
Las reglas de un algoritmo no necesariamente se aplican para cambiar el estado de algo, sino también para clasificarlo. Piensen en la compra de una lavadora: en nuestra mente, una especie de sistema de reglas basado en nuestros propios patrones de elección clasifica las lavadoras de mejor a peor y, en función de esa clasificación, decidimos. Nuestras reglas para comprar la lavadora pueden otorgarle más peso a la eficiencia energética, a que tenga o no secadora, o a que sea de color metálico o blanco, según nuestras preferencias. Ese modelo mental ponderará cada una de esas preferencias otorgándoles un peso en nuestro proceso de decisión y, finalmente, nos saldrán clasificadas todas las lavadoras que hemos tomado en consideración, de más atractiva a menos atractiva a la luz de nuestras preferencias.
Ahora imaginemos que ambos algoritmos analógicos, el exterminio nazi y la compra de la una lavadora, se pueden formalizar matemáticamente. Es decir, si una persona judía era mujer se la cuantificaba como un 1 y si era un hombre como un cero; si era un niño como un 2. En el escenario de la lavadora, si en nuestras preferencias pesa más la eficiencia energética le damos una puntuación de 10 y si el color nos importa menos le otorgamos un 3. Otorgándole números, habremos cuantificado un sistema ordenado de reglas, un algoritmo. Si está cuantificado, podremos computarlo mediante la informática.
En el mundo analógico, esto es, en el mundo previo a la computación informatizada, los cálculos se hacían con papel y lápiz, y si había suerte con una calculadora mecánica. En el universo digital, los cálculos están computerizados. De esta forma, los algoritmos analógicos que están presentes en casi todos los procedimientos sistematizados de nuestra vida en donde hemos necesitado clasificar y calcular cosas para decidir sobre ellas, actualmente se han convertido en algoritmos computacionales. La realidad analógica ha dado paso a la realidad computacional y, con ello, el salto en la capacidad de los algoritmos para clasificar y calcular sistematizadamente procesos ordenados ha recibido un impulso exponencial. Ese impulso es extremadamente eficiente en ingeniería de procesos, en ingeniería de decisiones y en economía. De esta forma, el primer cribado que efectúa un banco en el proceso de conceder créditos a personas físicas solicitantes de un préstamo lo realiza un algoritmo: en base a un modelo matemático de riesgo de impago, el algoritmo es un conjunto ordenado de operaciones de cálculo que tras procesar los datos cuantitativos de un solicitante (nivel anual de ingresos, gastos fijos como hipotecas o recibos de luz, teléfono y gas, número de hijos, edad… y otros) produce un resultado: lo clasifica en un baremo de riesgo, con el color rojo si es de alto riesgo de impago o el verde si es de bajo riesgo, y por tanto éste último un cliente susceptible de que le sea concedido un préstamo. Hasta aquí, los algoritmos computacionales no parecen nada peligrosos. Incluso suponen un avance para la humanidad: una vez que se le hayan introducido los datos adecuados, los algoritmos computacionales podrían clasificar y baremar todos y cada uno de los 7.500 millones de seres humanos de la población mundial en base a un modelo de riesgo de impago crediticio en, digamos, diez minutos; eso sí, si el tal algoritmo imaginario tuviera todos los datos que necesita el modelo de riesgo sobre el que está construido el algoritmo.
Este breve ejemplo del banco nos sirve perfectamente para describir qué requiere un algoritmo para funcionar. Ya sabemos que el algoritmo es un proceso ordenado de cálculo, que a partir de unos datos que se le aportan, produce un resultado. Sin embargo, ese proceso ordenado de cálculo tiene que ser, valga la redundancia, “ordenado”. Esto es, tenemos que proporcionarle un orden. No es lo mismo que, por ejemplo en la solicitud de un crédito bancario, se valore negativamente que el solicitante tenga tres hijos adolescentes, que se haga positivamente, o que lo considere un atributo neutro. Ese tipo de valoraciones son la responsabilidad de un modelo de datos.
Un modelo de datos es una construcción teórica que, para quien la diseña, representa una especie de maqueta simplificada de cómo funciona o debería de funcionar la realidad. Es una hipótesis, que generalmente sirve a unos intereses, que suelen coincidir con la intención de anticipar la realidad que tiene quien lo construye: el modelo sirve para detectar una determinada realidad y clasificarla, para actuar interesadamente sobre ella.
Respecto de la personalidad humana, por ejemplo, hay varios modelos hipotéticos sobre cómo estaría estructurada: uno de los más utilizados es el modelo OCEAN, por sus siglas en inglés, que clasifica a las personas en función de cómo puntúan en cinco dimensiones de personalidad, las llamadas apertura, toma de consciencia, extroversión, afabilidad y neuroticismo. En la era computacional, si deseamos seleccionar para un puesto de trabajo a personas en función de su puntuación en extroversión, sólo tenemos que poner a las personas candidatas delante de un computador a responder a un test, que cuantificará sus respuestas en un rango de 1 a 5, mientras un algoritmo basado en nuestro modelo de datos (un OCEAN sesgado favorablemente hacia la extroversión) clasificará todas las candidaturas y nos dará el resultado en una lista, con los primeros a elegir y el resto a descartar. Si en el proceso de selección de personal que hemos decidido aplicar, sólo vamos a utilizar el test de personalidad como herramienta, el algoritmo puede hacer perfectamente el trabajo de selección por nosotros: no tendríamos ni que entrevistar a las personas candidatas. Ya puestos, de hecho eso es precisamente lo que ocurre cuando hacemos la solicitud de un préstamo bancario a través de Internet: la web nos aplica un cuestionario en que se nos solicitan datos, y esos datos son procesados automáticamente por un algoritmo que en base a un modelo de riesgo predefinido por el banco nos considera aptos o ineptos para recibir un crédito. El modelo, pues, anticipa lo que sus creadores han previsto que será mejor, para los intereses del banco o del proceso de selección de personal en nuestros ejemplos.
Desarrollado el modelo de datos que interesa, el paso para dotarle de potencia computacional es el algoritmo, que traduce en operaciones matemáticas los parámetros que el modelo tiene programado que deben ser aplicados a los datos para que “resulten” en una determinada realidad, realidad que cumpla con los intereses del constructor del modelo. Como hemos subrayado, un algoritmo computacional no es más que un conjunto ordenado de operaciones de categorización y cálculo que se aplican sobre datos para, a partir de esas operaciones, producir un resultado. Por tanto, además de un modelo interpretativo o incluso performativo de la realidad, aquí nos encontramos con la segunda viga maestra de un algoritmo: los datos.
Sin datos y por mucho modelo que se haya desarrollado sobre cómo debería funcionar una parcela de la realidad, un algoritmo es inútil. Recurriendo de nuevo a los test de personalidad: no sirve de mucho teorizar sobre que la personalidad de un individuo se ajusta a una estructura OCEAN si no pueden ser recogidos datos, mediante tests, que alimenten ese modelo y confirmen –o desmientan- que tiene capacidad predictiva para servir a los intereses que sus creadores tienen sobre la realidad.
Un ejemplo fantásticamente revelador de la conexión entre datos, modelos computacionales y algoritmos es Google y los servicios que presta. Imaginemos a un ciudadano cualquiera que hace uso diario de servicios digitales. Le supongamos que tiene un correo electrónico de Gmail, al que está logado por defecto en su dispositivo móvil Android para que le sea más cómodo acceder a sus mensajes; que utiliza en su ordenador un navegador Google Chrome para surfear Internet, donde siempre efectúa las búsquedas con Google Search. Ese ciudadano ha firmado varios contratos con empresas de Alphabet, principalmente Google, que permiten a la empresa recoger datos permanentes. Digamos que Google obtiene datos identificativos constantes de la vida y la personalidad de ese ciudadano: sus intereses de búsqueda (Google Search); las webs que ha visitado (cookies en el navegador); su geoposicionamiento continuado y los sitios a los que va y viene (Android) y por tanto otras personas con las que correlaciona en esos mismos lugares (que también tengan Android instalado); todo cuanto acontece en su vida profesional o personal y que haya relatado a alguien por correo electrónico (Gmail); su red de contactos (si ha otorgado los permisos de acceso en Android; que lo habrá hecho); y probablemente y por combinación de los datos anteriores, dónde trabaja esa persona, cuándo se va de vacaciones, tal vez el coche que tiene, desde luego en qué zona y probablemente en qué calle y número de qué ciudad vive.
Nos consolaríamos diciendo que, claro, esos datos están anonimizados… que Google no sabe que es fulanito sobre quien tiene ese acopio incesante e integral de datos identificativos: error. En la mayoría de datos Google sabe, o puede perfectamente saber, quién es el individuo concreto y cómo se relacionan con él o ella todos los datos que ha recogido. De entrada, por el navegador Chrome Google tendrá la IP de conexión de los dispositivos. Eso no es mucho a efectos identificativos. Sin embargo, si la persona ha empleado su nombre en Gmail, Google ya lo tendrá y lo vinculará con el resto de datos de los que hemos hecho un resumen (muy resumido). Igualmente, si la persona ha facilitado su número de teléfono a Gmail como método de recuperación de contraseña o como segundo factor de autenticación, Google tendrá nombre, número de teléfono, lugar de residencia, trabajo, ocio, intereses, mapa geográfico de movimientos de la persona, contactos… en definitiva, casi todos los datos identificativos personales y casi de todo el mundo. Obviamente todo legal, nada que objetar, Google es bueno: son datos identificativos cedidos por la persona a una empresa mediante un contrato jurídicamente válido.
Con este panorama de recogida de datos, tratemos de imaginar ahora cómo se aplican sobre ellos modelos matemáticos y algoritmos computacionales para tomar decisiones automáticas sobre cada persona. Todo ese proceso de cuantificación, interrelación y algoritmización de datos no consta especificado, ni mucho menos detallado, en los contratos que las personas firman con las empresas proveedoras de servicios digitales a través de los “términos y condiciones del servicio”. Pero se produce; y es precisamente ese proceso el que confiere el mayor valor de mercado a empresas como Alphabet o Facebook.
Especulemos. Si fuéramos Google, con toda esa cantidad de datos que tenemos de cada persona que usa gratuitamente nuestros servicios, podemos intentar modelizar su impulsividad. No es tan complicado, aunque lo parezca. Inicialmente requerimos un modelo datos que nos relacione los indicadores y patrones que tenemos sobre esa persona con el rasgo que hemos denominado “impulsividad”. Hay muchos modelos psicológicos factoriales por ahí publicados a los que recurrir para saber qué factores son marcadores de la impulsividad. Si fuéramos Google e hipotéticamente tuviéramos acceso a estos datos, computaríamos las veces que en el navegador Chrome un usuario pulsa el botón “refresh” porque es tan impaciente que le cuesta esperar a que se cargue una página web; o la velocidad promedio con la que se esa misma persona se desplaza andando, lo cual me dirá su posicionador GPS en el teléfono Android, teléfono que también me dirá (a través de los giróscopos) cómo cambia y se mueve el teléfono cuando lo lleva en la mano; o cuánto tarda esa persona en responder un correo electrónico, o en esos mismos correos cuántas veces utiliza expresiones similares a “te envié un email pero no me respondiste…” o “te lo reenvío por si no te ha llegado”. Con esos factores, Google podría cuantificarlos, y ponerles un exponente o un índice multiplicativo o aditivo a los que considerara más importantes para modelizar un supuesto rasgo de “impulsividad”: por ejemplo, pensemos que mover mucho el teléfono o desplazarse deprisa son aditivos, mientras las expresiones de impaciencia en Gmail tienen peso multiplicativo en el modelo. Obviamente, es software automático el que está “leyendo” todas los mensajes, de todos los usuarios, del mundo mundial, en Gmail… el cifrado de Gmail está diseñado para que no haya interceptaciones de mensajes por parte de intrusos distintos de la empresa de Gmail y de sus usuarios, pero no para evitar que el software de lectura automática de Google (presuntamente) procese todos los mensajes que pasan por su plataforma.
En definitiva, que una vez construido (hipotéticamente) el modelo psicográfico computacional de impulsividad sobre cada usuario, Google podría (supuestamente) escribirlo en un software específico y derivarlo a un algoritmo computacional concreto. Ese algoritmo podría operar asociado al navegador Chrome y/o a Google Search para sugerir al sistema de anuncios publicitarios de Google Ads, presente en la mayoría de las webs del ciberespacio, con qué ritmo y frecuencia presentar a un usuario concreto la publicidad para que ese usuario “impulsivo” haga clic en los anuncios (vía de ingresos económicos para Google), anuncios que por supuesto estarán personalizados ya que se conocen los gustos e intereses de ese usuario concreto por su historial de navegación, de búsquedas, o por sus correos electrónicos. Como sabiamente expresaría Groucho Marx si nos fuera contemporáneo <<estos son mis algoritmos; si no le gustan, tengo otros>>.
En el mundo precomputacional, analógico, recoger datos para alimentar modelos que luego hicieran funcionar algoritmos casi mecánicos era un proceso artesanal. Las encuestas eran la estrella en lo relacionado con modelos sobre comportamiento social, y aún lo siguen siendo hoy en día para procesos electorales, y mucho menos en lo relativo a encuestas de consumo. En la era computacional, en cambio, el funcionamiento de los algoritmos y la recorrida de datos se ha exponenciado en velocidad y eficiencia gracias a la digitalización de la información. Además, la tendencia computacional es que tanto la recogida de datos como la algoritmización sean procedimientos automatizados, masivos y omnicomprensivos. Incluso que sean inteligencias artificiales las que acaben diseñando los modelos de realidad en función del propio análisis que hagan de yottabytes de datos en bruto.
Al banco todavía tenemos que alimentarlo con nuestros datos en su web para que un algoritmo, basado en un modelo de realidad de umbrales de riesgo de impago haga de filtro para aconsejar o desaconsejar el crédito, pero… ¿es posible que llegue un momento en que un algoritmo adopte decisiones sobre nosotros sin necesidad de que medie una conducta activa de cesión de datos por parte del individuo sobre quien el algoritmo va a tomar una decisión? Por supuesto que no sólo es posible, sino que lleva tiempo sucediendo. La cesión de datos por quienes son afectados por decenas y centenares de algoritmos automatizados operando a nuestro alrededor ya se ha producido, aunque no ha sido una cesión activa, sino pasiva.
Las redes sociales como munición para el hackeo
Lo contamos todo a través de las redes sociales. Incluso quienes alardean de que están fuera de las redes sociales, comparten su vida en ellas: puede que nunca hayan constituido una cuenta en Facebook, Twitter, Instagram o LinkedIn, pero tendrán un smartphone, y en ese dispositivo personal estará instalado Whatsapp. Pocos serán quienes no lo tengan para utilizarlo con familia, amigos, compañeros de trabajo. Y Whatsapp es propiedad de Facebook, que también posee Instagram. Las pocas personas que no tengan Whatsapp aún utilizarán algún correo electrónico de las plataformas gratuitas habituales como Gmail o Yahoo, o emplearán Google Maps para orientarse: a esos servicios también les contamos multitud de aspectos de nuestra vida a través de nuestros datos.
Un 67 por ciento de la población mundial utiliza un smartphone. Casi la mitad de la humanidad usa las redes sociales a través del teléfono móvil. En EEUU un 70% de los habitantes usan redes sociales, un 67% en el norte de Europa y un 53% en Europa Occidental; en los Emiratos Árabes el 99% de los residentes utiliza las redes sociales. Whatsapp tiene 1.500 millones de usuarios en 180 países; Facebook acumula 2.271 mil millones de cuentas; e Instagram mil millones; estas cifras otorgan a los empresarios a cargo de Facebook control sobre datos personales identificativos de entre un quinto y casi la mitad (dependiendo de si hay usuarios solapados que utilicen al mismo tiempo cuentas en las tres plataformas) de la población mundial total. Por su parte, Youtube, el buscador Google, el navegador Chrome, el correo electrónico Gmail, y el sistema operativo Android son propiedad de la matriz de Google, Alphabet; Youtube tiene mil millones de usuarios, Google es el buscador del 80 por ciento de la población mundial, igual porcentaje de los teléfonos móviles que usan Android, y Chrome alcanza hasta un 63% de la cuota de mercado de los navegadores web; de esta manera, la empresa matriz de Google recoge, de una manera u otra, datos identificativos de fácilmente la mitad de los humanos en el planeta Tierra, grosso modo (combinando la cifra de los usuarios de Internet con los números de uso de las marcas de Alphabet). Todos estos porcentajes subirán, no obstante, si restringimos las cifras por ejemplo sólo a EEUU y Europa, o únicamente a la población entre los 15 y los 65 años edad (que representa cerca del 65% de todos los humanos).
Resumiendo y calculando a ojo, no estará muy lejos de las cifras afirmar que las empresas de Facebook y Alphabet reciben datos identificativos de aproximadamente la mitad de la humanidad, computada globalmente, o de cerca ni más ni menos que de los dos tercios de ella si restringimos por edad en la horquilla que comienza después de la adolescencia y termina antes de la jubilación. Esto último es casi equivalente estadísticamente, a efectos prácticos, a afirmar que Facebook y Alphabet acopian continuamente datos del “mundo mundial”. Y lo hacen de manera continuada, sistemática, digital y computerizada. También con el consentimiento de los usuarios de cada uno de los servicios digitales, que han firmado con estas empresas un contrato jurídico vinculante con efecto legal, que en la jerga del ciberespacio se denomina “términos y condiciones del servicio”.
Hasta aquí, pudiera ser que nada nos pareciera problemático: estas empresas ofrecen servicios digitales, aparentemente gratuitos, a miles de millones de personas por todo el mundo, y esas personas aceptan los términos y condiciones del servicio, que invariablemente incluyen la autorización para la recogida masiva de datos personales y la cesión en el uso de esos datos para fines que generalmente son denominados, en esos contratos, o bien como “comerciales” o bien como “de mejora del servicio”.
Lo que podría suceder también es que, en el momento de firmar esos contratos con los servicios de Facebook y de Alphabet, los usuarios no tengan discernimiento del escenario integral respecto de las implicaciones que tiene la cesión de datos personales a empresas de servicios digitales. Expresado de otra manera: cuando un usuario hace clic en “aceptar” al constituirse un perfil en redes sociales o comenzar a utilizar Android no tiene en la cabeza la asociación que existe entre servicios digitales, medios masivos de recogida de datos, modelos de datos o de realidad, y algoritmos computacionales automáticos. Explícitamente, la conexión datos+algoritmo no está especificada en los contratos; y los abajo firmantes ni la ven, ni se la imaginan, ni por tanto la piensan. Es lo que podría denominarse como “cesión pasiva”: activamente los usuarios consienten con un clic que las empresas acopien sus datos, pero pasivamente están legitimando que la recogida de esos datos sea total, sistemática, continuada e integral, al servicio de modelos computacionales y algoritmos automáticos inteligentes, sin tener realmente consciencia de ello; ni por supuesto de sus implicaciones.
Todo son risas mientras nos quedemos limitados a cuestiones de privacidad en el universo digital. A la mayoría de los usuarios la privacidad, digámoslo honestamente, no les preocupa. Tienen asumido que las redes sociales, y en general los servicios digitales, son justamente lo contrario, o al menos que implican un concepto de la privacidad muy distinto al tradicional: tal vez se trate de una privacidad compartida o comunitaria, una privacidad basada justamente en una paradoja, en que para cada cual tenga naturaleza de privado aquello que es compartido.
No obstante, de un tiempo a esta parte es un mantra aceptado que el mayor problema que representan las redes sociales y los servicios digitales hiperconectados es el de la privacidad. Es común a instituciones reguladores y cuerpos legislativos ocuparse de la privacidad, y tangencialmente también de la propiedad de los datos. A ese efecto, principalmente en el espacio europeo, se han desarrollado leyes, la más célebre y última de ellas es el Reglamento General de Protección de Datos (RGPD). Sin entrar en mucho detalle, baste confirmar que, nacido con el noble propósito de garantizar la privacidad y los derechos del usuario respectos del uso que los proveedores de servicios van a dar a sus datos personales, el RGPD se ha convertido en un procedimiento rutinario y mecánico de aceptación de cookies, que los proveedores se han encargado de dividir en categorías obtusas para que el usuario no las entienda; y en una engorrosa burocracia de especialistas en protección de datos personales. El resultado son unas cuantas multas, bastante nutritivas para las arcas públicas, por uso inapropiado de datos por parte de algunas empresas; pero significando todo el proceso a la postre que el usuario continúa aceptando activamente que sus datos sean acopiados, cediendo pasivamente su vida digital para que sea posteriormente procesada por modelos y algoritmos computacionales automáticos.
También han aparecido en el panorama internacional cuestiones relacionadas con la propiedad de los datos e incluso con su comercio. No obstante, el debate de la propiedad de los datos se nos antoja bastante estéril puesto que, al contrario de lo que pueda parecer, no interesa demasiado a los grandes proveedores de servicios tecnológicos, quienes desde el principio insisten, incluso en sus propias narrativas, en que los datos son propiedad de las personas: a los proveedores no les importa la propiedad, sino el uso libre y la cesión que puedan hacer de esos datos con la autorización de las personas.
De este modo, están surgiendo debates sobre el comercio, el valor comercial, de los datos que aunque voluntariamente los usuarios están cediendo y que, incluso siendo de su propiedad, están no obstante siendo explotados comercialmente y monetizados por las plataformas globales de servicios tecnológicos, sin total consentimiento por parte de los usuarios de estas “derivadas secundarias” que tendría esa que hemos llamado aquí cesión pasiva de los datos. En España recientemente este debate de la cesión activa versus cesión pasiva de datos ha dado lugar a una demanda judicial colectiva presentada por la Organización de Consumidores y Usuarios (OCU), que reclama a Facebook 200 euros de indemnización por cada usuario a modo de reparación del daño moral potencialmente ocasionada por la “cesión irregular de datos” que la OCU atribuye hacer a Facebook con otras empresas de su grupo.
Así mismo recientemente se están alzando voces no ya sobre los datos, sino sobre uno de esos artefactos que junto a los modelos computacionales hemos considerado forman parte de la caja de herramientas para el hackeo social: los algoritmos. Entre los colectivos y organizaciones militantes por la libertad en Internet ya es una línea de preocupación creciente el potencial discriminatorio que sobre las personas representan los algoritmos de procesado automático y masivo de datos en servicios digitales. En 2018 la Agencia Europea para los Derechos Fundamentales llamaba la atención y mostraba su preocupación sobre el potencial dañino que para los derechos básicos del ciudadano podrían tener algoritmos computacionales automáticos basados en modelos de realidad subyacentes que fueran discriminatorios con las personas por <<razón de su sexo, raza, color, etnia y origen social…>>. Y ahí reside precisamente una de las claves de toda esta discusión sobre los datos y los algoritmos en el ciberespacio, y no la menor, sino la que mayor impacto nocivo y destructivo puede tener a medio y largo plazo en el hackeo de algo que es -o debería de ser- consuetudinario al menos a las democracias europeas: el denominado ascensor social, la igualdad de derechos y oportunidad que –al menos en teoría- posibilita que una persona pueda incrementar sus cotas de bienestar con independencia de sus condiciones económicas y sociodemográficas de partida.
Privacidad, propiedad y uso de los datos, algo de preocupación por la discriminatoriedad de los algoritmos… pero es probable que, todavía siquiera los organismos públicos reguladores, estén en la posición mental prospectiva de discernir lo más relevante y lo que más incidencia puede tener en la salud a futuro de los sistemas democráticos: que algoritmos computacionales automáticos comiencen a decidir sobre la vida de las personas, vida que ya conocen porque otros algoritmos computacionales la han recogido de redes sociales y de la huella digital en web, en dispositivos móviles y, muy pronto, en todo tipo de objetos conectados a la Internet de las Cosas a través de infraestructuras de telecomunicación 5G: electrodomésticos, coches, ropa y todo tipo de gadgets ultraconectados. Estamos inmersos en una batalla silenciosa por parte de esos algoritmos por hackear el sistema social, siendo tal vez el primer efecto de esa intervención algorítmica la disrupción o el hackeo del ascensor social. Puede que sólo sea una casualidad simbólica, pero eso de hackear el sistema social guarda una intrigante resonancia con el lema corporativo de Facebook de <<muévete rápido y rompe cosas>>.
Algoritmos de Discriminación Masiva (ADM)
Cathy O’Neil denomina al big data y a los modelos computacionales Armas de Destrucción Matemática, por la similitud que podrían metafóricamente tener con los efectos devastadores (en nuestro caso, por la “muerte social” que podrían ocasionar los primeros) con las conocidas Armas de Destrucción Masiva (las mismas siglas ADM). Sin ánimo de cuestionar ni subestimar la valiosa aportación de O’Neil, tal vez sería más preciso y evocador rebautizar el engendro como Algoritmos de Discriminación Masiva, pues el efecto que producen o podrían producir si no se regulan es, como veremos, el de discriminar a la porción más desfavorecida de la población, haciéndola todavía más desfavorecida. Y todo ello con esa población cediendo “voluntariamente” todos los datos de su vida para que sean utilizados para implementar esa discriminación.
Actualmente, el estado del arte del desarrollo software en algoritmos computacionales que puedan operar automáticamente sin intervención humana, en tareas de clasificación de realidades y en consiguientes decisiones sobre ellas, es un campo inmenso y fructífero de estudio sin posibilidad de ser resumido de manera sintética y general sin perderse en especificaciones técnicas. Además, el estado del arte del desarrollo algorítmico al nivel que nos interesa (la capacidades de esos algoritmos para aprender, por sí solos, a definir realidades, a clasificarlas y a decidir sobre ellas) es en la práctica indiferenciable de la inteligencia artificial, otro intricado dominio de conocimiento técnico. A la luz de nuestras reflexiones baste decir que los algoritmos de aprendizaje, actuación y decisión automáticos están tan maduros en su desarrollo, operativa y evolución que lo único que necesitan, para ser autónomos, es una variedad y cantidad suficientemente grandes y masivas (ambas, en variedad y en cantidad) de datos de los que alimentarse. Mala noticia en un ciberespacio de datos crecientemente disponibles en un ecosistema desregulado de operativa algorítmica. Dicho de otra manera: con el estado actual del arte en el software algorítmico y la disponibilidad masiva de datos, Facebook y Alphabet pueden operar a sus anchas de manera muy eficiente con la única limitación de los marcos legales regulatorios. Repitámoslo: con la única limitación de los marcos legales regulatorios.
No se sabe demasiado qué están haciendo Facebook y Alphabet, pero sí sabemos, y muy bien, qué podrían hacer otros con mucha menor tecnología, infraestructura y potencial de investigación en modelos computacionales e inteligencia artificial de la que tienen Facebook y Alphabet. Eso que sabemos muy bien se llama Cambridge Analytica.
Es suficientemente conocido el caso de Cambridge Analytica como para describirlo otra vez. Hasta 2018 era una empresa con matriz en Reino Unido, dedicada al big data y a los modelos computacionales, que ese mismo año fue el epicentro de un escándalo global al revelarse que había (presuntamente) estado utilizando datos personales de usuarios de Facebook para alimentar sus modelos computacionales de datos para aplicar los resultados a campañas de influencia sobre ciudadanos/votantes en procesos electorales en varios países, principalmente en EEUU. Recordemos lo que acabamos de afirmar antes: el estado actual del desarrollo de modelos computacionales ya permite algoritmos inteligentes que aprendan, clasifiquen y decidan automáticamente sobre realidades sociales; lo único que necesitan para funcionar es alimentarse masivamente con datos sobre esas realidades sociales.
Cambridge Analytica demostró que esa ecuación de relación entre modelos computacionales inteligentes y datos masivos ya era posible y estaba siendo implementada a pleno rendimiento con (supuestos) atractivos beneficios económicos para los propietarios de esos algoritmos y (presunta) total opacidad frente al resto del mundo. O tal vez, quizá era una mezcla de opacidad y de desinterés, o falta de foco fiscalizador y regulador, por parte de organismos de vigilancia en las administraciones públicas. El caso es que desde Cambridge Analytica lo venían advirtiendo ya desde su propia retórica comercial: cuando era máximo responsable de Cambridge Analytica Alexander Nix afirmó que su empresa tenía alrededor de 5 mil piezas de información sobre una persona, en concreto sobre cada votante estadounidense; parece una enormidad, pero ya lo sería que únicamente fuera necesario un 10 por ciento de esa cifra para perfilar psicográficamente a una persona. En realidad, un estudio muy reciente sugiere que para desanomizar a una persona, es decir, para conocer su identidad aunque no la proporcione, son únicamente necesarios 15 atributos sociodemográficos que puedan ser obtenidos por otros medios (por ejemplo, escarbando en redes sociales) respecto de esa persona.
Por tanto, aunque han corrido ríos de tinta sobre Cambridge Analytica, no se ha puesto el acento en lo más relevante del caso, en lo que nos dice terca y lúcidamente sobre el estado actual del arte: con acceso a un volumen suficiente y variado de datos, los algoritmos computacionales automáticos actuales ya permiten aproximarse a establecer cuál va a ser el comportamiento de una persona, con una certeza lo suficientemente atractiva como para que las empresas inviertan en ella. Es decir, la clave no son los modelos matemáticos o los algoritmos computacionales: ¡la piedra angular son los datos y el acceso a los datos!, esos que precisamente regalamos con muy pocos reparos.
Tal vez a la mayoría de las personas no les preocupa la cesión pasiva de datos que se deduce de la firma de un contrato con empresas proveedoras de servicios digitales porque, en la mente colectiva, se relaciona esa cesión con la privacidad o con la propiedad de los datos. Quizá los usuarios ponen esa privacidad en un platillo de la balanza, y en el otro sitúan la cantidad de indudablemente útiles servicios digitales que esas empresas les proporcionan a cambio de los datos, y el intercambio les compensa, nos compensa. ¿Y si no nos estamos haciendo las preguntas adecuadas?
El escenario negro, de momento únicamente una posibilidad prospectiva, imaginada pero asumible como escenario de reflexión para estar en condiciones de anticipar, gestionar y corregir potenciales debilidades de los sistemas democráticos ante el avance desregulado de la tecnología, es que algunas empresas globales que actualmente tienen acceso desde luego a más de 15 atributos o piezas de información sobre la mayoría de habitantes del planeta Tierra, comiencen a poner a la venta la explotación de esos datos para que otras empresas apliquen el resultado de la computación algorítmica a otros negocios. Estos clientes de los algoritmos provisionados por las empresas que poseen (o administran) los datos cedidos pasivamente por los ciudadanos, no necesariamente tienen que ser otras empresas: los clientes principales de Cambridge Analytica eran, al parecer, partidos políticos; no es casualidad que la iniciativa recientemente presentada en España para actividades de perfilado ideológico de ciudadanos utilizando datos digitales tuviera como promotores a partidos políticos, más deslumbrados por los potenciales beneficios electorales que preocupados por la salud democrática del engendro, salud que afortunadamente ya se encargó de salvaguardar el Tribunal Constitucional previa acción del Defensor del Pueblo, anulando la iniciativa por inconstitucional.
Digamos, por ejemplo, que en un futuro próximo la combinación de acceso a datos permitirá a empresas proveedoras de servicios digitales vender esos datos, empaquetados, a otras empresas. O mejor: vender el resultado de aplicar algoritmos computacionales automáticos sobre esos datos. Es decir, pongamos por caso que Alphabet o Facebook no venden directamente datos empaquetados al peso, pero desarrollan una consola de inteligencia artificial, provista de varias decenas de algoritmos automáticos, a la que otros clientes corporativos se puedan suscribir y consultar dependiendo de la segmentación y perfilado que quieran explotar de esos datos. Igual una entidad financiera desea acceso a datos psicodemográficos de personas en una zona geográfica determinada, para valorar si hacer en ella o no una inversión inmobiliaria; supongamos que al consultar la consola de ADM que (hipotéticamente… recuerden que estamos fabulando) les proporciona Facebook mediante suscripción, la conclusión a la que llegan los potenciales inversores es que los residentes presentan características psicodemográficas que desaconsejan la inversión, porque exponen demasiado riesgo de impago esas características. Esa área geográfica hipotética ya habrá quedado discriminada entonces por el trabajo automático de una serie de ADM, con resultado aportado al instante al cliente suscriptor de la consola, sin que haya mediado ninguna supervisión humana.
Es cierto, es cierto: cualquier empresa con potencial inversor aplicará diversas metodologías de investigación de mercado, el uso de algoritmos incluido, para calibrar si pone o no dinero en un proyecto de desarrollo urbanístico en un zona deprimida; y esos métodos incorporarán datos sociodemográficos de sus habitantes, que se explotarán con sesgo discriminatorio. A día de hoy, ese sesgo discriminatorio es perfectamente legal y legítimo: una empresa no tiene porqué invertir en una zona deprimida si considera que sus indicadores socioeconómicos son negativos para la rentabilidad. Probablemente la mayor diferencia entre esos métodos habituales y el futurible de los algoritmos computacionales inteligentes no sea solamente el hecho de que el destino de un barrio lo decida una máquina, sino que el algoritmo computacional automático utilizará microdatos marcadamente personalizados y los filtrará a través de un modelo discriminatorio; mientras los métodos de investigación de mercado usarán datos estadísticos agregados, que también cribará con un modelo discriminatorio.
Hagamos una extrapolación analógica para describir mejor el escenario: ¿qué ocurriría si el método de investigación de mercado consistiera en investigadores desplegados físicamente por el terreno, que van casa por casa, entran en los domicilios, hacen todo tipo de preguntas de índole personal a sus habitantes, conocen todos sus datos identificativos, y además registran las habitaciones, el comedor, la cocina y los baños para hacerse una idea más precisa del comportamiento de cada uno de los habitantes en todos los domicilios de una zona residencial? En primer lugar, muchos de los habitantes se negarían frontalmente a ese nivel de escrutinio; en segundo, la empresa investigadora tendría un acopio inimaginable de datos personales con los que discriminar a la gente; en tercero, probablemente alguien denunciaría el hecho por su presunción de ser ilegal, y sería esperable que algún tipo de colectivo militante pusiera el grito en el cielo. Pues bien, todo esto de los microdatos marcadamente personalizados ya ha comenzado a ocurrir, pero no son unos entrevistadores los que acuden puerta a puerta para obtener los microdatos en cada baño y cada dormitorio, sino que son los habitantes tras esas puertas quienes entregan sin pudor toda esa información de alta personalización a empresas con las que ni siquiera se han reunido más allá de un clic digital.
Otro supuesto no muy alejado de la realidad imaginable sería que grandes empresas accedieran a una de esas consolas ADM -que nos hemos inventado para nuestra argumentación- para hacer reclutamiento y selección de personal. ¿Y si un joven, que tiene en su teléfono Whatsapp, Instagram y Facebook, además de Google, Gmail, Android y Chrome, presenta su candidatura a un proceso laboral a través de un formulario web y el propio formulario web, trabajando por medio de ADM, rechaza automáticamente su candidatura en base al análisis discriminatorio de alguna de las características psicosociodemográficas de ese joven? ¿Estarían esos algoritmos ADM legitimados legalmente para realizar esa función?
Por tanto, en ese escenario negro, pudiera cumplirse el supuesto de que personas económica y socialmente más desfavorecidas, pero utilizando todas ellas servicios digitales gratuitos donde han aportado incesante y pasivamente datos personales que permiten su perfilado psicosociodemográfico individual, sean objeto de decisiones discriminantes llevadas a cabo por algoritmos computacionales automáticos, y que esas decisiones las aboquen a continuar en los pisos inferiores del ascensor social, mientras en los superiores están quienes tienen un perfil psicosociodemográfico a priori más rentable económicamente para un inversor, o incluso aquellas que de las que no se tienen datos para elaborar tal perfil.
¿Y si, en futuro, Google y Facebook se unen formando una misma empresa? Podría decirse que es imposible, porque las autoridades de la competencia limitarían esa fusión, pero ¿no es cierto que Alphabet opera el sistema operativo móvil de mayor base instalada del mundo, el buscador web prácticamente omnipresente, el navegador web tal vez más utilizado, y la plataforma de correo electrónico gratuito más extendida, y ninguna autoridad antimonopolio ha obligado a Alphabet a que venda y segmente todas las empresas en las que tiene una posición dominante?
¿Y si en un todavía indeterminado momento en el futuro Facebook comenzará a vender datos personales de sus usuarios a bancos, compañías aseguradoras o entidades de crédito, incluso a empresas de reclutamiento laboral o de inversión inmobiliaria? Si es que no lo está haciendo ya. O tal vez Facebook constituya un banco por sí mismo, como ya ha pretendido hacer, por ahora sin éxito, con su propia moneda digital Libra. O quizá Facebook sea controlado por un fondo financiero internacional como Blackrock. Todos son escenarios intangibles, conjeturas, por supuesto, para ponerlas al servicio de nuestra reflexión y del eje central de la hipótesis negra: que cuando los datos de la mayoría de la población están en manos exclusiva y desnaturalizadamente del beneficio económico, sin regulación para proteger derechos fundamentales, los derechos fundamentales podrían ser los últimos de la fila.
¿Una solución?: regular algoritmos y servicios digitales de pago
No está todo perdido, seamos optimistas: acordemos que todo esto no está sucediendo por intenciones de beneficio desmedido, o incluso maliciosas, por parte de algunas empresas e individuos, sino que el escenario potencial e hipotéticamente desajustado en perjuicio de los derechos fundamentales de las personas más desfavorecidas que hemos pergeñado, es el resultado de que nos encontramos en un momento de transición en que la Política con mayúsculas (el gobierno de la cosa pública) todavía tiene que entender lo que está ocurriendo con ese ecosistema entre datos, modelos computacionales y algoritmos inteligentes manejados por pocas empresas, para entrar decididamente a regularlo.
Tampoco se trata de irse al otro extremo, el de rechazar la computación y los algoritmos inteligentes, que en sí mismo sirven decididamente al progreso de la humanidad. La cuestión es introducir regulaciones, específicamente sobre la creación y uso de modelos computacionales y algoritmos inteligentes, para garantizar la salvaguarda de los derechos fundamentales. No es nada extraño lo que se propone, y por otro lado lleva décadas haciéndose con las denominadas tecnologías de doble uso, aquéllas que con un mismo diseño pueden ser utilizadas tanto para el bien como para el mal, sobre las que todas las democracias tienen establecidas rigurosas restricciones legales. Aquí estaríamos abogando por lo mismo.
El horizonte a alcanzar sería el conformado por guardar el equilibrio que debe haber entre la protección de los derechos fundamentales y la intervención en corregir las desigualdades de los sistemas democráticos, y entre la libertad en Internet, el libre comercio y la aplicación armónica y saludable a esas libertades de cada uno de los avances benéficos en computación e inteligencia artificial.
Hacia ese horizonte, el regulador tendría que comprender en profundidad el significado de tres ejes interconectados: 1) cómo funcionan los modelos computacionales y los algoritmos inteligentes; 2) qué factores técnicos de desarrollo o de operativa de esos productos de software pueden funcionar como marcadores de una práctica discriminatoria cuando esos modelos y algoritmos actúan sobre realidades personales o sociales; y 3) qué técnica jurídica es necesario utilizar de las existentes, innovar sobre las posibles o crear exnovo para producir regulaciones que limiten el uso de modelos computacionales y algoritmos inteligentes entre los márgenes de los derechos fundamentales, y prohíban –sí, prohíban- el desarrollo y uso de software que atente contra esos derechos, puesto que tal será un software anticonstitucional.
En efecto, en un ecosistema de protección regulatoria de derechos fundamentales en la era del ciberespacio, el ciudadano no puede estar protegido a través de la fiscalización pública contra fármacos, tóxicos de distinto tipo como drogas, armas y tecnologías de doble uso, y completamente desprotegido contra algoritmos que están teniendo –y tendrán más- una clara incidencia social y que son, en su mayoría, opacos excepto para sus creadores.
Si se retira la mística que los rodea, en buena parte por ignorancia de quienes no tienen conocimientos técnicos, algoritmos y modelos computacionales no son más que código software, y por tanto un conjunto de reglas escritas en uno o varios lenguajes de computación. Por definición son, por tanto, auditables y fiscalizables, y desde luego deberían serlo en la medida que tocan en su actuar derechos fundamentales.
Por supuesto que hay que introducir salvaguardas para la protección de derechos de propiedad intelectual, secreto industrial y actividad comercial de los creadores de esos algoritmos. No nos pongamos tan estupendos con esto: ya se hace desde hace décadas con los fármacos; y precisamente los fármacos están sometidos a verificación previa de sus ingredientes constituyentes y de sus efectos. Con el software que puede ser tóxico socialmente, potencialmente lesivo de derechos, habría que implantar un procedimiento similar: auditar y fiscalizar que el código software de una tecnología no es contrario a derecho. Hacerlo es cuestión de casi replicar el modelo de control, ya con histórico y experiencia en la mayoría de países y desde luego en Europa, de las tecnologías de doble uso, o incluso de los fármacos.
Lo sensato y adecuado al momento actual de transición en todas estas tecnologías con impacto social es que, antes de que sea demasiado tarde, comités especializados en el seno de la Unión Europea hagan un estudio a priori del código software de algoritmos inteligentes automáticos a desplegar en servicios digitales para los ciudadanos de la Unión Europea para verificar, sencillamente, que se ajustan a Derecho; proceso en el cual se cuiden las debidas garantías de protección de la confidencialidad y la competencia comercial, como ya se viene haciendo en otros ámbitos.
En definitiva y descendiendo mínimamente a la operativa del asunto, se trata de establecer qué datos pueden ser combinados en modelos y algoritmos computacionales, y cuáles no porque el resultado de su combinación sería potencialmente lesivo, no para la privacidad, sino para el derecho fundamental a la no discriminación: para ofrecer el excelente servicio de Google Maps son necesarios datos de geoposicionamiento de dispositivos móviles de usuarios, pero no cruzarlos con el número telefónico de esos usuarios, o con sus gustos e intereses inferidos a partir de sus conversaciones por correo electrónico, ni con la distancia geoespacial a la que están de sus contactos o de los lugares sobre los que han realizado búsquedas en Google.
Ese nuevo entorno regulatorio también debería ser sensible a la salud económica de empresas que están proporcionando servicios digitales globales. Como en toda política democrática, debería haber un equilibrio en la salvaguarda de derechos y, de ahí, que sea oportuno sugerir medidas para asegurar que las empresas pueden continuar innovando y generando tecnologías de progreso de ese campo que sin ninguna duda está produciendo -y producirá todavía más- progresos en la humanidad, como es el de la computación inteligente.
Actualmente y observando el panorama aunque sea superficialmente, queda claro que la mayoría de los modelos computacionales y algoritmos inteligentes se crean y aplican para potenciar servicios digitales personalizados, sobre todo la publicidad segmentada e individualizada. Tanto Google como Facebook tienen en la publicidad digital su mayor volumen de ingresos, y en los algoritmos de microtargeting (de microfocalización o individualización) la herramienta para implementar esa publicidad segmentada. Si se introducen regulaciones sobre los algoritmos inteligentes, muchos serán sometidos a un control que implicarán que determinados algoritmos no podrán hacer ciertas funciones porque redundan en actuaciones discriminatorias del ciudadano; otros directamente serán prohibidos por ser algoritmos tóxicos. Ello obligaría casi con seguridad a las empresas a cambiar el modelo de negocio.
Afirmémoslo con perspectiva: en ese escenario de regulación, los servicios digitales masivos dejarían de ser gratuitos. En cierto modo ya viene siendo una anomalía que, en el sistema capitalista, esos servicios que requieren una infraestructura hardware y software descomunal, no tengan ninguna repercusión de costo monetario en el usuario: no lo tienen porque el usuario ya paga sobradamente con sus datos. No obstante, si aceptamos la hipótesis que hemos manejado de que precisamente sin la masiva disponibilidad y acopio de datos en manos de una pocas empresas globales, la operativa de modelos computacionales y algoritmos inteligentes no tiene sentido, a sensu contrario si se controla la funcionalidad de esos modelos y algoritmos digitales, por muchos datos que se tengan, las empresas no podrán obtener de ellos una explotación económica con los rutilantes niveles de rentabilidad económica actual.
Una vía de encarrilamiento de la rentabilidad económica en un entorno de fiscalización de modelos y algoritmos digitales sería que los usuarios pasaran a pagar servicios por suscripción donde actualmente son gratuitos. Si Alphabet cobrara diez euros anuales por usuario ofreciendo un paquete de servicios (Google Search, Gmail, Google Maps, Chrome) ingresaría un rango de entre 20 y 30 mil millones de euros anuales, o tal vez más. No está mal. Por supuesto, estas empresas podrían y deberían continuar utilizando modelos y algoritmos inteligentes, y desarrollar muchos más nuevos. Lo que no podrían ni deberían hacer, ni los sistemas democráticos permitir, es que esos algoritmos fueran (presuntamente) lesivos de derechos fundamentales. El pago por servicios ya se hace en muchos servicios digitales, que no obstante aplican sofisticados algoritmos de perfilado de usuarios (Amazon, por ejemplo). No es nada nuevo, y con precios en competencia, probablemente asumible para los ciudadanos.
¿La conclusión es que en la sociedad capitalista la protección de derechos cuesta dinero? Eso parece. La alternativa es que sean vulnerados gratis.