A medida que el activo más importante de una compañía ha pasado a ser la información que maneja, esta figura ha ido cobrando cada vez más peso, especialmente en EEUU y Reino Unido. Sólo en éste último país, las ofertas de empleo para este perfil han crecido un 22 por ciento en el último año… y ello a pesar de que según un estudio de PwC, casi una cuarta parte de las compañías en Europa y Norte América no está sacando beneficio alguno de su información. En muchos casos se trata de información relativa a los clientes y las interacciones que se mantienen con ellos; interacciones, por otro lado, que ahora más que nunca son bidireccionales.
El primer requisito que ha de cumplir un científico de datos es moverse como pez en el agua entre los datos; esto no sólo pasa por saber bucear en grandes volúmenes de información sino, además, saber identificar las fuentes más ricas y cruzarlas entre sí, generado nueva información o, por decirlo de otro modo, aflorándola.
Ese es, en esencia, el gran mérito de este nuevo perfil profesional, que sabe aprovechar fuentes incompletas de datos o detectar el potencial de riqueza informativa de una fuente determinada que, por sí sola, seguramente no aporta gran cosa. La diferencia con un experto en gestión de datos, figura que sí lleva muchos años en las organizaciones, es que éste sabe extraer información de fuentes estructuradas de información, como son las bases de datos, pero no de las desestructuradas, como imágenes, audio o vídeo. Y estas últimas fuentes, con la explosión de redes sociales, son cada vez más numerosas.
En las décadas de los años 80 y 90, los bautizados como ‘los cuánticos’ triunfan en los mercados financieros. Se trataba de profesionales con conocimientos de matemáticas y física que ayudaban a los grandes bancos de inversión a crear programas de ingeniería financiera con complejos algoritmos para manejarse mejor en Wall Street. Sin embargo, aquellos cuánticos no tenían que enfrentarse a ese contenido desestructurado.
Y es que no resulta en absoluto sencillo combinar todas estas cualidades, que casi son una mezcla entre hacker, analista, comunicador y consejero. Se trata, pues, deuna suerte de hombre orquesta experto en programación y código, con profundos conocimientos de estadística y álgebra y con la habilidad de saber presentar sus resultados de cálculos complejos de un modo lo más visual posible.
¿Dónde me formo?
Toda organización que maneje petabytes de información en tablas interminables de columnas y filas, tarde o temprano, necesitará de los servicios de un científico de datos si quieren aprovechar ese volumen de información. De hecho, la escasez de este perfil profesional está comenzando ya a plantear serios problemas en algunos sectores que, obsesionados por obtener una ventaja competitiva sobre sus rivales mediante la explotación de sus datos, requieren de expertos en big data.
El primer problema con el que se topa alguien que quiera ser un científico de datos es que no existe una formación específica para ello. En los últimos años, incluso aquí en España, han surgido cátedras en algunas facultades de Informática pero, en la mayoría de los casos, son patrocinadas por los grandes fabricantes de Tecnologías de la Información que combinan sus objetivos de marketing con sus intereses en ir haciendo cantera desde la universidad. Otras compañías, en cambio, han optado por crear sus propios programas de formación y certificación para científicos de datos.
Los científicos de datos son expertos en tecnología y código, capaces de perfeccionar o desarrollar sus propias herramientas para poder obtener los mejores resultados. ¿Cómo se traduce esto en el mundo real? Podemos mirar a Yahoo, una de las compañías pioneras en emplear a tipo de profesionales y que jugóun papel fundamental en el desarrollo de Hadoop, el proyecto open-source de Apache que permite a las aplicaciones trabajar petabytes de información repartidos por miles de nodos distintos.
Yahoo no es una excepción, el propio equipo de datos de Facebook ha creado el lenguaje Hive para programar proyectos Hadoop o multinacionales como eBay, Google, LinkedIn, Twitter, Amazon o Microsoft han refinando estas herramientas big data.
¿Cuál es el objetivo de todo este análisis masivo de datos? Ayudar a tomar la mejor decisión de negocio y, además, en el momento preciso porque, una buena decisión, si no llega a tiempo, deja de ser buena. Esa es la máxima de la competitividad.
David Bollero, Se busca científico de datos, Público 23/03/2016