¿Cómo forma el equipo de datos en 7Puentes? Si bien a menudo se cree que los científicos de datos son “genios solitarios” que trabajan de forma aislada, la realidad es que los proyectos de ciencia de datos efectivos requieren de la interacción dinámica entre una amplia gama de personas con diferentes habilidades, formaciones y backgrounds.
En este post, exploraremos por qué la ciencia de datos es un “deporte de equipo” y cómo la agilidad entre los diferentes roles de un proyecto de datos, lleva a resultados óptimos en cada industria.
El siglo XXI es, sin dudas, el siglo de los datos: desde el inicio de las tecnologías basadas en Internet, ha habido un consumo y una generación masiva de datos. Esta oportunidad de almacenamiento, transferencia y recuperación de datos ha promovido la proliferación de diversas herramientas, tecnologías y nuevas disciplinas que se dedican a su estudio.
La madurez lograda en 7Puentes -al haber podido intervenir y estar involucrados en cientos de proyectos basados en Machine Learning para empresas pertenecientes a diversas industrias verticales- nos permitió encontrar una metodología de trabajo orgánica y efectiva, consecuente con nuestro Data-Team.
En este sentido, estamos convencidos de que el Data Scientist no debe ser un profesional polifuncional que se ocupa de todo el proceso de Data Science de principio a fin. Según nuestra perspectiva, las distintas etapas de un proyecto deben involucrar, desde el punto de vista productivo, a profesionales con conocimientos similares pero con distintos perfiles o roles específicos.
Científicos de datos e ingenieros de datos: cómo se diferencian y complementan ambos roles
Aunque en ocasiones, dependiendo de la organización o del proyecto que se implemente, las diferencias no están tan marcadas, es importante aclarar que Data Science y Data Engineering son dos roles distintos. Para establecer sus identidades únicas, destacamos las principales diferencias entre los dos campos:
- La Ingeniería de Datos es la disciplina que se encarga de desarrollar el marco para el procesamiento, almacenamiento y recuperación de datos de diferentes fuentes. Por otro lado, Data Science desarrolla el modelo requerido para extraer ideas significativas y útiles a partir de los datos subyacentes.
- El Data Engineer sienta las bases o prepara los datos sobre los que el Data Scientist desarrollará las técnicas de machine learning y los modelos estadísticos.
- La Ingeniería de Datos generalmente emplea herramientas y lenguajes de programación para construir APIs para el procesamiento de datos a gran escala y la optimización de consultas. Por el contrario, la Ciencia de Datos utiliza conocimientos de estadística, matemática, informática y nociones empresariales para desarrollar modelos de inteligencia y análisis específicos de la industria.
- Si bien el Data Engineer se ocupa de la correcta utilización del hardware para el procesamiento, almacenamiento y distribución de los datos, es posible que el Data Scientist no se preocupe demasiado por la configuración de la infraestructura.
- Los científicos de datos deben preparar una representación gráfica o visual a partir de los datos subyacentes. No se requiere lo mismo de los ingenieros de datos.
El Data Analyst para entender el negocio del cliente
Con el propósito de quitarle al Data Scientist responsabilidades que lo pueden desenfocar de su principal tarea, que es el proyecto científico de datos en sí, la figura del Data Analyst (DA) es fundamental para brindar al equipo un entendimiento completo del negocio del cliente.
En líneas generales, el DA se ocupa de analizar los datos que facilita el cliente, pero también se comunica con él; define alcances y es quien entiende si el modelo responde a las necesidades que la organización plantea. Es fundamental que todos los integrantes del equipo tengan conocimientos de Machine Learning para que puedan dialogar entre sí.
Data Engineer: que “todo funcione” y “los datos lleguen”
El Data Engineer (DE) es un profesional que se ocupa de armar el entorno de trabajo y el repositorio de datos para que el Data Scientist y el Data Analyst trabajen en la práctica, y garantiza que, desde el punto de vista técnico, todo funcione; que la infraestructura que soporta las bases de datos y los procesos sean confiables. El DA y el DS seleccionan los features que serían parte del modelo y el DE los agrega a los set de entrenamiento. En los últimos meses -a partir de la evolución natural de las plataformas cloud y sus herramientas- las figuras de DataOps o MLOps surgieron como una especificidad del DevOps. Asimismo, el DE testea nuevas propuestas y tecnologías que surgen para, eventualmente, aplicarlas a proyectos futuros.
Posicionando al Data Scientist en su lugar: cuál es su verdadero rol en el equipo
Habiéndose librado de la problemática del cliente (DA) y de la parte técnica (DE), el Data Scientist (DS) se enfoca exclusivamente en todo lo relacionado con el problema científico. Por citar algunos ejemplos reales: ¿Qué productos realmente interesan a los clientes de una empresa, es posible identificarlos?; En los próximos meses, ¿qué clientes probablemente no pagarán?; En el período posterior a la crisis, ¿cuánto tiempo le tomará a una compañía en particular restablecer su negocio y qué acciones deben tomar por adelantado?; ¿Es mejor invertir en acciones, comprar o alquilar equipos más modernos para la producción?; ¿Es mejor contratar a más personas el año que viene? Y si es así, ¿en qué áreas será rentable el retorno?
El DS construye el modelo de Machine Learning: toma el resultado del proceso de feature selection, diseña el modelo inicial, lo construye, parametriza y exporta para su entrenamiento.
Todos jugando para el mismo equipo
Este modelo de organización de los roles en un proyecto de Ciencia de Datos no es arbitrario. A 7Puentes le ha permitido encarar exitosamente numerosos proyectos de diversas complejidades.
Desde nuestra experiencia, la gran mayoría de los proyectos de Machine Learning tienen inconvenientes puntuales para llegar a producción porque se le pide al Data Scientist más de lo que debe hacer.
Lo que también observamos es un avance de las herramientas que asisten al DS, en paralelo con el desarrollo de metodología y procesos para la producción de este tipo particular de software (herramientas como MLFLow.Sagemaker, H2o.ai , etc.).
Si el DS puede concentrarse en lo que realmente tiene que hacer, entonces puede y podrá abordar proyectos de Machine Learning más complejos. Pero, para que esto suceda, la complejidad no debe pasar por cuestiones de las que tranquilamente deberían poder ocuparse el analista y el ingeniero de datos.
Más allá de las diferencias entre las distintas especialidades involucradas en el mundo del procesamiento inteligente de los datos, es clave destacar que el DA, el DE y el DS son integrantes de un mismo equipo, partes fundamentales y complementarias en un data-team. Eslabones de una misma cadena, todos igual de necesarios.
Al mismo tiempo, los proyectos efectivos de ciencia de datos también requieren de la colaboración ágil con otras partes interesadas, como líderes empresariales, ejecutivos comerciales, personal de IT, equipos legales y de compliance, entre otros. Los líderes empresariales y ejecutivos comerciales desempeñan un papel clave en la definición de las metas y los objetivos del proyecto, y deben trabajar alineados con el rol del analista de datos, para que el modelo se construya de acuerdo a las necesidades reales de la organización. El personal de tecnología es responsable de garantizar la seguridad y la confiabilidad de los datos y la infraestructura de ciencia de datos, y debe trabajar en estrecha colaboración con los científicos de datos y los ingenieros de datos para garantizar que los datos se manejen correctamente. Los equipos legales y de cumplimiento son responsables de garantizar que la solución de ciencia de datos cumpla con las leyes y regulaciones pertinentes, y deben participar en el proyecto para garantizar que los datos se utilicen de manera ética y responsable.
En resumen, la ciencia de datos es un “deporte de equipo” que requiere la colaboración efectiva y dinámica entre expertos en el dominio, científicos, analistas e ingenieros de datos y otras partes interesadas, para lograr los mejores resultados posibles. De esto depende fundamentalmente el éxito de un proyecto en Machine Learning.
[contact-form-7 id=»662″ title=»Form for Contact Page»]