Proyecto candidato

Transformación de Gobernanza de Datos con IA Generativa – InfoJobs

Proyecto de consultoría estratégica que implementó un framework de gobernanza de datos en InfoJobs (Adevinta) utilizando IA generativa para acelerar la adopción organizacional

Datos del proyecto

Proyecto de consultoría estratégica que implementó un framework de gobernanza de datos en InfoJobs (Adevinta) utilizando IA generativa para acelerar la adopción organizacional. Se desarrollaron herramientas basadas en Claude Code y Gemini Pro que redujeron un 80% el tiempo de documentación, mejoraron 4x la velocidad de onboarding y lograron un 60% de adopción de nuevas prácticas en solo 4 meses, transformando cómo 8M+ usuarios encuentran empleo a través de datos mejor gestionados.

Autoría

Galde Analytics S.L.

Categoría

Empleo y recursos humanos

Localización

Bizkaia

Tecnologías clave

Machine learning, Procesamiento del lenguaje natural (NLP), Generative AI (texto, imagen, voz o código), Describe otras: Data Governance

Nivel de madurez tecnológica

TRL 9 — Sistema probado en entorno operativo real

Beneficiarios

Beneficiarios directos:

1. Equipo de datos de InfoJobs (12 personas):

– Data Engineers: Reducción drástica en tiempo de documentación, mejor claridad en decisiones arquitectónicas
– Analytics Engineers: Framework claro para desarrollar transformaciones con calidad
– Data Scientists: Acceso mejorado a metadatos y lineage de datos para modelos ML
– Data Analysts: Documentación clara que facilita autoservicio de datos

2. Stakeholders técnicos (25+ personas):

– Equipos de producto, analytics y BI con mejor visibilidad de datos disponibles
– Nuevas incorporaciones al equipo que se integran 4x más rápido

3. Liderazgo técnico de InfoJobs:

– Head of Engineering con roadmap claro de gobernanza alineado a objetivos 2025-26
– Data Director con framework sostenible para escalar madurez de datos

Beneficiarios indirectos:

1. Usuarios de InfoJobs (8M+ mensuales):

– Mejora en calidad de matching candidato-oferta gracias a pipelines de datos más confiables
– Experiencia de búsqueda de empleo optimizada por mejor gobernanza de datos

2. Empresas reclutadoras:

– Mejores candidatos sugeridos gracias a datos de mejor calidad
– Reducción en tiempo de contratación

3. Otras unidades de Adevinta:

– leboncoin (Francia), Kleinanzeigen (Alemania) replicando el framework
– Potencial impacto en 50M+ usuarios del ecosistema Adevinta global

4. Sector de empleo en España: Mejora en infraestructura de la plataforma líder de empleo beneficia al ecosistema laboral completo.

Indicadores o KPI de impacto

Personas beneficiadas:

– Directos: 12 personas del equipo de datos + ~25 stakeholders indirectos
– Indirectos: 8M+ usuarios mensuales de InfoJobs que se benefician de mejor calidad de datos

Eficiencia operativa:

– 80% reducción en tiempo de documentación técnica (de 4h a <1h por pipeline)
– 75% reducción en tiempo de creación de ADRs (de 2+ días a mismo día)
– 4x mejora en velocidad de onboarding (de 8 semanas a 2 semanas)
– 120 horas/mes liberadas del equipo para trabajo estratégico vs. documentación manual

Adopción y calidad:

– 400+ assets de datos documentados (vs. <30% previo)
– 90% cobertura de ADRs en decisiones arquitectónicas de 2025
– 60% adopción de prácticas dbt + Elementary en fase piloto
– 75% confianza del equipo en continuar prácticas de forma autónoma

Impacto económico:

– 80K€ ahorro anual proyectado en optimización de infraestructura cloud
– 20% reducción estimada en tiempo de resolución de incidentes de datos

Transferibilidad:

– Framework ya replicándose en 2+ plataformas adicionales de Adevinta (leboncoin, Kleinanzeigen)
– Potencial de impacto en 50M+ usuarios de ecosistema Adevinta global

Sostenibilidad post-proyecto:

– 2 meses operando de forma autónoma con resultados sostenidos
– Herramientas IA en producción utilizadas diariamente por el equipo

Capacidad tecnológica del proyecto

Computación:

– Cloud computing: AWS (primario) para infraestructura de datos
– Serverless: AWS Lambda para automatizaciones de documentación
– Notebooks: Databricks para análisis exploratorio y desarrollo de pipelines

Frameworks y herramientas:

– dbt (Data Build Tool): Framework core para transformaciones de datos y gobernanza
– Elementary: Plataforma de data observability integrada con dbt
– Confluence + JIRA: Knowledge base y project management, alimentando la IA
– Git/GitHub: Versionado de código, documentación y configuraciones

Modelos IA utilizados:

– Claude Code (Anthropic): LLM fundacional para generación de código, templates técnicos y documentación de arquitectura
– Gemini Pro (Google): LLM fundacional para análisis de schemas, generación de documentación semántica y procesamiento de lenguaje natural

Datos:

– Esquemas de datos: Redshift (AWS) + Databricks (multi-cloud) con cientos de tablas y pipelines
– Metadatos: Unity Catalog (Databricks) para gestión centralizada de metadatos
– Documentación histórica: Confluence, JIRA tickets, ADRs existentes utilizados para training/context de LLMs
– Volumen procesado: 400+ assets de datos documentados y catalogados

Interfaces:

– CLI tools: dbt CLI, scripts Python para automatización de documentación
– Web interfaces: Confluence para documentación colaborativa, Elementary UI para observabilidad
– AI assistants: Templates interactivos con prompts preparados para Confluence/Google Docs
– APIs: Integración RESTful con Claude API y Gemini API para generación de contenido

Integraciones clave:

– CI/CD pipeline: Integración de validación de documentación en GitHub Actions
– Slack notifications: Alertas de Elementary + bots de documentación faltante
– API orchestration: Flujos que combinan análisis de schema → generación IA → revisión humana → publicación

Sostenibilidad, huella ambiental y licencia social

Eficiencia energética y sostenibilidad ambiental:
El proyecto implementó medidas de optimización que reducen significativamente el impacto ambiental: caching inteligente de outputs de IA que minimiza llamadas redundantes a APIs, mejor visibilidad de lineage que identificó $80K anuales en pipelines obsoletos, y documentación automatizada que elimina 120h/mes de trabajo manual repetitivo. Estas prácticas sostenibles no solo reducen consumo directo de compute en datacenters, sino que establecen un framework escalable que multiplica beneficios ambientales a largo plazo mediante código reutilizable y reducción de ejecuciones exploratorias innecesarias.
Ética, equidad y licencia social:
Para mitigar sesgos algorítmicos se combinaron múltiples LLMs (Claude + Gemini) con revisión humana obligatoria, prompts inclusivos y documentación que no asume niveles de expertise específicos. El proyecto garantizó transparencia total con el equipo sobre uso de IA, sus limitaciones y propósito, asegurando que ninguna persona fue reemplazada sino liberada de tareas tediosas para trabajo estratégico. Las herramientas desarrolladas benefician equitativamente a todo el equipo (no solo perfiles senior), el onboarding 4x más rápido reduce brechas de conocimiento, y se aplicaron principios de data minimization procesando solo datos estrictamente necesarios con las APIs de IA, con el equipo capacitado en uso ético de LLMs.