Ciencia de datos: Novedoso campo de conocimiento

por para Ciencia Hoy el . Publicado en Número 161.

La generación de volúmenes crecientes de datos plantea un enorme desafío, no solo para su manejo, sino también para extraer nuevo conocimiento a partir de ellos.

Cada hora, cada minuto, nuestra sociedad genera cantidades gigantescas de datos, a velocidad creciente. Una breve visita a http://www.internetlivestats.com/ basta para comprobarlo. Se estima que en los dos últimos años se crearon el 90% de todos los datos que produjo la humanidad en su historia. Si reflexionamos sobre lo que hacemos en un día típico, podemos reconocer rápidamente nuestra contribución a la acumulación global de datos: uso de tarjetas para transporte público, paso por puestos de peajes, datos de geolocalización que captura nuestro teléfono celular, imágenes frente a cámaras de seguridad, uso de tarjetas de débito y crédito, correos electrónicos enviados y recibidos, por citar algunos.

Cada fuente de datos crea desafíos distintos para quien busca aprovecharlos. No es lo mismo extraer información de una transacción comercial que de una secuencia de video o de una conversación. Sin embargo, hay ciertas características de la captura, el análisis y la interpretación de los datos que son comunes a diferentes dominios. El propósito de este artículo es presentar un campo de conocimiento relativamente nuevo, la ciencia de datos, que tiene como objeto estudiar y desarrollar procesos de captura de datos, metodologías para su análisis, su modelado y su comunicación. En otras palabras, la ciencia de datos recorre el camino que comienza con la obtención de los datos, sigue por su análisis e integración para generar información y, finalmente, crea conocimiento.

Un poco de historia y unas cuantas definiciones

Antes de avanzar, entendamos mejor la abundancia de términos que cubre este campo, y que se resumen en el gráfico. Por un lado, tenemos la minería de datos, o data mining. Este es uno de los términos más antiguos y se refiere a una serie de técnicas que se idearon mayormente a fines de la década de 1980. Para ese tiempo el uso de bases de datos dedicados a la gestión de los negocios ya se había generalizado y varios investigadores reconocieron que dentro del universo de datos que se registraban de manera rutinaria existía información nueva y de alto valor potencial.

Una breve historia de la ciencia de datos. Las cajas muestran las principales fuentes de la ciencia de datos. Sus posiciones con respecto al eje de la izquierda indican las primeras referencias. La computación gráfica continuó un camino independiente, pero es el antecedente de las técnicas actuales de manejo de imágenes. No se muestra la estadística, a la que habría que ubicar en el siglo XVII o, en su versión más moderna, aproximadamente en 1930.

Las técnicas iniciales de la minería de datos provenían de la estadística tradicional y de un área de la inteligencia artificial llamada aprendizaje automático, de la que hablaremos más adelante. El objetivo primario de estas técnicas era facilitar el descubrimiento de patrones ocultos en los datos. Por ejemplo, identificar la compra frecuente de grupos de productos que no guardan una relación obvia entre sí, y que permitiría diseñar operaciones novedosas de promoción.

Otro término de uso muy extendido actualmente, pero con un origen aún más antiguo, es la inteligencia artificial. Durante la década de 1950 los pioneros de la ciencia de la computación imaginaron que debería ser posible enseñarle a una máquina a resolver problemas de forma genérica. Es decir, sin tener que especificar cada paso de la resolución de un problema y sus posibles ramificaciones, como hace la programación tradicional de computadoras. La primera ola de la inteligencia artificial no logró materializar sus promesas y durante algunas décadas pasó de moda.

Pero, gracias a los avances en software y hardware, desde hace unos años vivimos un renacimiento de la inteligencia artificial que está acompañado por un número creciente de productos y servicios. Usamos algunos, sin saberlo, desde nuestros celulares. Asociado a este fenómeno, el nombre inteligencia artificial se extiende a aplicaciones que no son más que programas, sin duda complejos, pero que se construyen siguiendo los principios tradicionales de la programación de computadoras.

A pesar de los años de relativo olvido que siguieron a la primera ola de la inteligencia artificial, esto no significó un fracaso absoluto. Hubo una rama derivada que sí fue exitosa y sobrevivió al paso del tiempo: el aprendizaje automático o machine learning. Nuevamente, un término que hoy se menciona con frecuencia, pero que nació hace casi cincuenta años. El éxito del aprendizaje automático se debió a que se centró en una serie más acotada de problemas para los cuales, frecuentemente, la estadística tradicional no encontraba soluciones satisfactorias. A diferencia de otras metodologías de análisis, muchas operaciones de aprendizaje automático comienzan con una fase de entrenamiento.

Supongamos, por ejemplo, un banco que desarrolla una aplicación para predecir si un cliente pagará un crédito o no lo hará. En primer lugar, durante la fase de entrenamiento se le presentarán al software casos anteriores de clientes que cumplieron e incumplieron sus obligaciones, además de datos asociados que abarcan la historia previa de interacciones del cliente con el banco. En esta etapa el clasificador aprende cuáles son las características que diferencian a un cliente cumplidor de uno no cumplidor. Luego continúa una fase de validación, en la que se verifica la calidad del aprendizaje con datos que no se usaron durante el entrenamiento. Si esta etapa produce resultados satisfactorios, el software de clasificación ya está listo para entrar en operación. Esto quiere decir que podrá determinar la probabilidad de que un cliente, cuyo perfil no va a coincidir necesariamente con ninguno de los casos de entrenamiento, pague el crédito que contrató.

Evolución del hardware para procesamiento de datos. Consola de la UNIVAC I (1951), primera computadora comercial de la historia (izquierda); un centro moderno de datos: servidores de la fundación Wikimedia (derecha).

Un aspecto importante de estos sistemas es la calidad de los datos de entrenamiento. Vale aquí citar ejemplos que aclararán esta afirmación. Se descubrió que sistemas avanzados de reconocimiento de rostros presentaban errores basados en género o en color de piel. Por ejemplo, reconocían mejor a hombres que a mujeres. En parte esto se debía a una selección sesgada de los datos de entrenamiento, que incluía muchas más imágenes de rostros masculinos que femeninos.

Finalmente, en esta jungla de términos, aparece el último llegado, los grandes datos o big data, que parece destinado a una vida más corta porque ya está entrando en una gradual extinción. Pero antes de entender las causas de este fenómeno, ¿qué son los grandes datos? Al inicio del presente milenio ocurrió una explosión en la diversidad de los datos y la velocidad con que se generaban. De esta manera ingresamos en una nueva era en la que una multitud de acciones, eventos y procesos se pudieron considerar datos susceptibles de ser convertidos en conocimiento: registros numéricos, texto, imágenes, video, audio, lenguaje hablado, datos geolocalizados, etcétera.

Este aumento en los volúmenes, las velocidades y la diversidad de los datos planteó demandas muy exigentes al software y al hardware. Para resolver estos cuellos de botella se trabajó en simultáneo para mejorar los dos componentes. Sin embargo, en la práctica se trataban caso por caso, lo cual no contribuía a desarrollar soluciones más genéricas que sirvieran para diferentes problemas. Afortunadamente esta situación cambió gracias al desarrollo de clusters de computadoras más potentes. Estas consisten en conjuntos de computadoras de costo individual relativamente bajo que trabajan en forma coordinada y que se pueden usar localmente, o por proveedores de computación en la nube, lo cual reduce aún más su costo.

Si meditamos un momento sobre el problema planteado al inicio de este apartado, reconoceremos que, tanto en sentido histórico como tecnológico, aquello que hoy calificaríamos como ‘pequeños datos’ fueron grandes datos hace veinte años, y problemas intratables hace cuarenta. Y, de la misma manera, nuestros grandes datos posiblemente provocarán sonrisas de aquí a cuarenta años.

Entonces, ¿qué es la ciencia de datos? ¿Qué se espera de los científicos de datos?

Partiendo de una mínima comprensión de los términos principales del campo, y de los objetivos que tiene la ciencia de datos, centrémonos en analizar la esencia que distingue este campo de conocimiento de otros. Entre las similitudes, comparte métodos generales con otras áreas del conocimiento que usan los datos como materia prima para construir modelos predictivos y mejorar nuestra comprensión de la realidad. Y lo hace de una manera más bien transversal; esto es, muchos de sus métodos se aplican a problemas muy diversos con mínimos ajustes.

La ciencia de datos tiene tres componentes o soportes principales. Estos son la estadística, el aprendizaje automático y la visualización de la información. En la medida en que la disciplina se expande a diferentes áreas y las tareas son más especializadas, es posible que cada profesional requiera habilidades más desarrolladas de un tipo que de otro; sin embargo, todo científico de datos debe contar con un nivel de conocimiento suficiente e integrado de los tres.

La visualización de datos, que no habíamos mencionado hasta ahora, se erige como el tercer pilar porque cuando los datos y los modelos son complejos, es difícil comunicarlos. Por supuesto que existen formalismos matemáticos para hacer descripciones precisas y compactas, pero su utilidad queda restringida a un grupo relativamente pequeño de profesionales. Es necesario, por lo tanto, usar gráficos o animaciones, que además pueden ser interactivas.

Esta última consideración nos lleva a considerar el ambiente en que trabajan los científicos de datos. La mayor demanda de empleo proviene del sector privado, y lo más frecuente es que el equipo de ciencia de datos trabaje en colaboración con profesionales de otras disciplinas, en proyectos que pertenecen a un dominio particular con un lenguaje, formas de trabajo, plazos y requerimientos legales propios. Esto significa que un desarrollo sólido en las áreas científicas consignadas antes no es suficiente. Aquí nos resultará útil aplicar los conceptos de habilidades blandas y duras que utilizan los profesionales de las áreas de recursos humanos. Las habilidades duras son las que analizamos antes: estadística, aprendizaje automático y visualización de la información, y normalmente se adquieren dentro de un esquema formal de educación. Las habilidades blandas son aquellas que dependen en menor proporción de la educación formal, y más de características, experiencias y desarrollo personales.

Mencionaremos tres habilidades blandas con las que debe contar cualquier aspirante a científico de datos. La primera ya se comentó y es la capacidad de trabajar en equipos heterogéneos. En segundo término, habíamos incluido el desarrollo de visualizaciones entre las habilidades duras. Este requisito se puede extender a la capacidad de comunicación en general, y constituye la segunda habilidad blanda. Esto se debe a que, además de la capacidad de entender el lenguaje específico y los intereses del domino en que se trabaja, muchas de las actividades y los hallazgos deben comunicarse a audiencias más amplias y en situaciones que influirán, por ejemplo, en el diseño de políticas públicas o en la toma de decisiones de un negocio. La tercera habilidad blanda es la curiosidad, que facilita entender e interesarse por las novedades que ocurren en el dominio de trabajo y en la ciencia de datos en general. La curiosidad es esencial para mantenerse actualizado.

La dinámica de los fundamentos teóricos y prácticos de la ciencia de datos pasa por una situación comparable al movimiento de placas tectónicas. Las técnicas y herramientas que hasta hace muy poco tiempo se consideraban exitosas y prácticamente definitivas, fueron reemplazadas por otras más precisas o rápidas. Por supuesto, lo mismo sucederá con las que estamos utilizando ahora.

Aquellos que participamos en proyectos de formación profesional nos encontramos frente al desafío de mantener el equilibrio entre la enseñanza de los métodos actuales que necesitan los graduados, y la formación más abstracta que sirva de impulso para recorrer la actividad profesional como una carrera de formación continua. Y sumamos a esto acompañar el desarrollo de las habilidades blandas. Cada vez es más frecuente que profesionales provenientes de ambientes científico-académicos tradicionales se incorporan a la ciencia de datos. Un reclamo que este autor ha escuchado más de una vez en el ambiente local, y que también está discutido en la literatura internacional, se refiere a las deficiencias de estos profesionales en alguna de las habilidades blandas presentadas, mucho más que a carencias en estadística, matemática o informática.

Visualización de datos en distintos soportes.

¿Cuánta ciencia y cuántos datos?

Supongamos una situación hipotética, pero cercana a la realidad. Un centro de diagnósticos médicos de alta complejidad puede realizar un estudio que requiere tomar imágenes de alta resolución de un órgano durante diez minutos con intervalos de fracción de segundo. Es un estudio costoso y las obras sociales y empresas de medicina prepaga lo autorizan solo si se justifica su necesidad. Cada estudio individual genera una cantidad de datos muy grande que podría resultar útil para otros usos. Entusiasmado con esta idea, el responsable científico del centro decide crear un servicio de acceso remoto a los últimos diez años de registros anonimizados mediante una herramienta que permitirá revisar estudios, compararlos, ensamblar las imágenes como secuencias de video y hacer varios cálculos sobre estas observaciones. Si atendemos al volumen de datos y a la velocidad con que se deberán procesar, indudablemente estamos frente a un proyecto de grandes datos, o big data.

El proyecto requerirá un grupo de profesionales bien preparados para desplegar toda la infraestructura necesaria. Pero una científica de datos, amiga del director técnico, pregunta: ‘¿Y los pacientes sanos? ¿Contra qué control se van a comparar los datos?’. Y agrega: ‘Si la herramienta se va a restringir a estudiar diferentes categorías de pacientes, ¿existe suficiente información clínica asociada con cada uno de ellos?’. Posiblemente no exista, porque los pacientes llegan derivados por diferentes médicos que acompañan sus pedidos con descripciones más bien escuetas, que no siguen un formato uniforme y tal vez son de carácter presuntivo. Es decir, no siempre los grandes volúmenes de datos se traducen en grandes volúmenes de información. Aun más, la gran cantidad de datos puede crear una sensación de certeza que esconde detrás un riesgo enorme de producir información sesgada.

Síntesis y perspectivas

La ciencia de datos es una actividad con raíces profundas en diversas ciencias. Su nacimiento es reciente pero, gracias a su crecimiento espectacular, ya se encuentra bien establecida entre nosotros. No es posible tratar en la extensión de este artículo el papel crucial que juega la privacidad de los datos, pero tampoco es posible cerrarlo sin una mención.

La comodidad de tener en nuestros teléfonos móviles guías para evitar embotellamientos de tránsito, o la posibilidad de armar un menú de noticias personalizado o de reencontrar amigos de la infancia, puede justificar ceder datos, y algo de nuestra privacidad. Mientras no exista un delito en la captura y el uso de datos, la calibración de cuánto ceder y cuánto no dependerá de cada uno. Pero muchas veces es difícil saber qué estamos compartiendo. Al mismo tiempo, no debe considerarse toda captura de datos como un potencial riesgo, porque esto podría llevarnos a perder enormes oportunidades. Por ejemplo, el conjunto de las historias clínicas electrónicas, debidamente anonimizadas y reguladas, es un cofre del tesoro donde podría estar oculto el conocimiento para tratar muchas enfermedades.

Como ha sucedido a lo largo de la historia con otras ciencias y tecnologías disruptivas, existen al mismo tiempo temores y grandes promesas. Es difícil hacer predicciones precisas sobre qué nos traerá la ciencia de datos en cinco o diez años. Lo que sí sabemos es que la cantidad de datos que producimos continuará en aumento en todos los frentes: datos personales, datos multimedia, actividad en redes sociales y sensores de todo tipo y tamaño, en nuestro planeta y en el espacio exterior. La necesidad de poder manejar esos volúmenes de datos y el desafío de extraer nuevo conocimiento útil de ellos nos augura un futuro excitante.

Primeros pasos

A aquellos lectores ajenos a este campo, pero curiosos y con ganas de iniciar sus primeras aventuras en el análisis de datos, los invitamos a revisar en Google Trends (https://trends.google.com/trends/) la frecuencia con que se buscaron en la web los diferentes términos a los que nos referimos anteriormente. En el panel superior, en la caja etiquetada Explore topics ingresemos Big data, en la lista de categorías que se despliega elijamos search term y, después de que aparezca el gráfico, extendamos la búsqueda a los últimos cinco años. Luego. en Compare podemos agregar Machine learning (search term), como término de búsqueda adicional. Allí podremos ver cómo van creciendo sostenidamente las búsquedas asociadas a aprendizaje automático, mientras que aquellas referidas a grandes datos se estabilizan. Si bien tal herramienta no permite determinar la confiabilidad de estos resultados, ni hacer predicciones, dos requerimientos típicos y casi siempre presentes en un proyecto de datos, sí nos permite explorar de manera rápida y en forma visual algo que también suele ser una demanda en los proyectos de ciencia de datos. A propósito de esto, ¿notaron los lectores las súbitas caídas en la frecuencia de búsquedas para big data a fines de diciembre de cada año? ¿Qué tipo de búsquedas serán responsables de estas anomalías? (consejo: revisar la lista etiquetada All categories).

Lecturas Sugeridas

HARDESTY L, 2018, ‘Study finds gender and skin-type bias in commercial artificial-intelligence systems’, MIT News. Massachusetts Institute of Technology, accessible en http://news.mit.edu/2018/study-finds-gender-skin-type-bias-artificial-intelligence-systems-0212.
JAMES G, WITTEN D, HASTIE T & TIBSHIRANI R, 2009, ‘An introduction to Statistical Learning’, Springer, accessible http://www-bcf.usc.edu/~gareth/ISL/.
LESKOVEC J, RAJARAMAN A y ULLMAN J, 2014, Mining of massive datasets, Cambridge University Press, accessible en http://www.mmds.org/.
http://datamining.dc.uba.ar/predictivos/.
https://www.oreilly.com/topics/data-science.
http://tupac.conicet.gov.ar/stories/home/.

Marcelo Soria

Doctor en ciencias biológicas, UBA. Profesor adjunto, Facultad de Agronomía, UBA. Director de la Maestría en Explotación de Datos y Descubrimiento de Conocimiento, FCEN y FI, UBA. soria@agro.uba.ar