El “Cold Start” o “Arranque en frío”, según Wikipedia, es un problema potencial referido a los equipos basados en sistemas de información. Particularmente, el problema es que el sistema no puede extraer inferencias para los usuarios sobre los que aún no ha reunido suficiente información. Es decir, como el sistema no ha podido aunar un mínimo de datos sobre las preferencias del usuario, las deducciones que este sistema va a realizar para las recomendaciones van a ser nulas o poco fiables. La ausencia de este mínimo crítico de información es lo que motiva este problema y ocasiona que el sistema no pueda funcionar. Estas técnicas de recomendación segmentada y personalizada sugieren artículos como películas, libros, canciones, imágenes o páginas webs, entre otros, después de haber realizado un filtrado de información en el usuario con base a sus predilecciones.
Grandes gigantes del mundo de Internet, como Amazon o Google, tienen en este sistema de filtrado y análisis de información uno de sus activos más valiosos puesto que les permite:
- Promocionar sus productos de manera más individualizada y directa con las preferencias del usuario hacia el que va dirigido y
- Lograr una difusión publicitaria particularizada ya que las ofertas van orientadas a las preferencias concretas del usuario usando técnicas de Behavioral Advertising.
Para paliar el problema del Cold Start se suele recurrir a la importación de bases de datos ajenas y ya consolidadas, cuyo filtrado de información ya está realizado, donde cada usuario tiene trazado un perfil de recomendaciones. De esa forma, el sistema tiene un mínimo crítico de datos sobre los que puede comenzar a filtrar información y conseguir que vaya mejorando progresivamente de cara a realizar recomendaciones fiables.
El primer aspecto legal a tener en cuenta es el derivado del derecho sui generis sobre una base de datos establecido en el artículo 133 del Real Decreto Legislativo 1/1996, de 12 de abril, por el que se aprueba el Texto Refundido de la Ley de Propiedad Intelectual. Su objeto es proteger:
“la inversión sustancial, evaluada cualitativa o cuantitativamente, que realiza su fabricante ya sea de medios financieros, empleo de tiempo, esfuerzo, energía u otros de similar naturaleza, para la obtención, verificación o presentación de su contenido.”
Según indica el mismo artículo, el fabricante de una base de datos puede prohibir la extracción y/o reutilización de la totalidad o de una parte sustancial del contenido de ésta siempre que la obtención, la verificación o la presentación de dicho contenido represente una inversión sustancial desde el punto de vista cuantitativo o cualitativo. Al final afirma que este derecho podrá transferirse, cederse o darse en licencia contractual.
Según lo dispuesto anteriormente, todos los actos tendentes a aprovecharse de una inversión de medios realizada por el fabricante de una base de datos, sin que esto se haya permitido por éste mediante cesión expresa o concesión de licencia, no están consentidos por los términos de este artículo. Parece claro que aprovecharse del esfuerzo e inversión realizado por el creador de la BD de información filtrada con el objeto de generar recomendaciones no es una conducta acorde con lo plasmado en este articulado. Se ha creado una infraestructura técnica de programación por el fabricante para seleccionar y ordenar esta información con el fin de disponer de una BD y también un sistema capaz de generar estas recomendaciones, por lo que este esfuerzo debe ser protegido.
Finalmente, en el último párrafo del artículo se expresa lo siguiente:
“no estarán autorizadas la extracción y/o reutilización repetidas o sistemáticas de partes no sustanciales del contenido de una base de datos que supongan actos contrarios a una explotación normal de dicha base o que causen un perjuicio injustificado a los intereses legítimos del fabricante”.
Aunque se acuda a un tercero especialista en técnicas de “web scraping” (extracción de datos de una página web para nutrir a nuestro motor de la información mínima para generar las recomendaciones) se debe tener en cuenta que este tercero debe disponer de la cesión o licencia otorgada por la empresa fabricante de la BD que contiene la información originaria filtrada y cuyos sistemas de información pueden perfectamente realizar estas recomendaciones.
Otro aspecto legal fundamental es el relativo a la protección de datos de los usuarios cuya información se pretende importar. Depende de si el sistema únicamente obtiene la conducta o tendencia del usuario para sugerir artículos relacionados ignorando sus datos personales o si efectivamente utiliza información personal del usuario, ya que habría que recabar el consentimiento del usuario afectado debido a que nos hallaríamos ante un supuesto de cesión de datos.
Es decir, si el motor de recomendaciones utiliza, por ejemplo, las tres últimas adquisiciones de un usuario relacionadas con un estilo musical para, después de analizar esta tendencia, sugerirle otro grupo afín a la conducta comercial que ha trazado el motor solamente estudiando ésta y no los datos personales del usuario tales como nombre, dirección IP o domicilio, entre otros, se estaría produciendo un uso conforme.
Imagen compartida por hummel_12
2 thoughts on “Aspectos legales del Cold Start y Web Scraping”
Comments are closed.
Interesante artículo que hace que tengas distintos puntos de vista.