Data Science + Data Engineering: ¿Cómo forma el equipo de datos?

 

Data Science | El siglo 21 es, sin dudas, el siglo de los datos: desde el inicio de las tecnologías basadas en Internet, ha habido un consumo y una generación masiva de datos. Esta oportunidad de almacenamiento, transferencia y recuperación de datos ha promovido la proliferación de diversas herramientas, tecnologías y nuevas disciplinas que se dedican a su estudio. Entre ellas se encuentran la Ciencia de Datos o Data Science y la Ingeniería de Datos o Data Engineering. Con estas especialidades, surgen nuevos roles o tareas: la del Científico de Datos (Data Scientist) y la del Ingeniero de Datos (Data Engineer).

Aunque en ocasiones, dependiendo de la organización o del proyecto que se implemente, las diferencias no están tan marcadas, es importante aclarar que Data Science y Data Engineering son dos roles distintas. Para establecer sus identidades únicas, destacamos las principales diferencias entre los dos campos:

– La Ingeniería de Datos es la disciplina que se encarga de desarrollar el marco para el procesamiento, almacenamiento y recuperación de datos de diferentes fuentes. Por otro lado, Data Science desarrolla el modelo requerido para extraer ideas significativas y útiles a partir de los datos subyacentes.

– El Data Engineer sienta las bases o prepara los datos sobre los que el Data Scientist desarrollará las técnicas de machine learning y los modelos estadísticos.

– La Ingeniería de Datos generalmente emplea herramientas y lenguajes de programación para construir APIs para el procesamiento de datos a gran escala y la optimización de consultas. Por el contrario, la Ciencia de Datos utiliza conocimientos de estadística, matemática, informática y nociones empresariales para desarrollar modelos de inteligencia y análisis específicos de la industria.

– Si bien el Data Engineer se ocupa de la correcta utilización del hardware para el procesamiento, almacenamiento y distribución de los datos, es posible que el Data Scientist no se preocupe demasiado por la configuración de la infraestructura.

– Los científicos de datos deben preparar una representación gráfica o visual a partir de los datos subyacentes. No se requiere lo mismo de los ingenieros de datos.

 

Y como en todo equipo, también existen roles de apoyo que hacen posible el amalgamiento de un equipo eficiente y la sinergia con los product owners y otros stakeholders: se trata de los analistas de negocio. Ellos diseñan estrategias de productos y narran las historias de datos (Data Storytelling), sobre las que profundizaremos en un próximo post.

En conclusión, es cierto que Data Science y Data Engineering son dos disciplinas con enfoques y patrones mentales diferentes. Sin embargo, más allá de las diferencias entre ambas especialidades involucradas en el mundo del procesamiento inteligente de los datos, actividad que en 7Puentes desarrollamos desde hace años con distintos niveles de profundidad según lo demande el proyecto en curso, es clave destacar que son integrantes de un mismo equipo, partes fundamentales y complementarias en un data-team.