Proyecto de consultoría estratégica que implementó un framework de gobernanza de datos en InfoJobs (Adevinta) utilizando IA generativa para acelerar la adopción organizacional. Se desarrollaron herramientas basadas en Claude Code y Gemini Pro que redujeron un 80% el tiempo de documentación, mejoraron 4x la velocidad de onboarding y lograron un 60% de adopción de nuevas prácticas en solo 4 meses, transformando cómo 8M+ usuarios encuentran empleo a través de datos mejor gestionados.
Autoría
Galde Analytics S.L.
Categoría
Empleo y recursos humanos
Localización
Bizkaia
Tecnologías clave
Machine learning, Procesamiento del lenguaje natural (NLP), Generative AI (texto, imagen, voz o código), Describe otras: Data Governance
Nivel de madurez tecnológica
TRL 9 — Sistema probado en entorno operativo real
Beneficiarios
Beneficiarios directos:
1. Equipo de datos de InfoJobs (12 personas):
– Data Engineers: Reducción drástica en tiempo de documentación, mejor claridad en decisiones arquitectónicas
– Analytics Engineers: Framework claro para desarrollar transformaciones con calidad
– Data Scientists: Acceso mejorado a metadatos y lineage de datos para modelos ML
– Data Analysts: Documentación clara que facilita autoservicio de datos
2. Stakeholders técnicos (25+ personas):
– Equipos de producto, analytics y BI con mejor visibilidad de datos disponibles
– Nuevas incorporaciones al equipo que se integran 4x más rápido
3. Liderazgo técnico de InfoJobs:
– Head of Engineering con roadmap claro de gobernanza alineado a objetivos 2025-26
– Data Director con framework sostenible para escalar madurez de datos
Beneficiarios indirectos:
1. Usuarios de InfoJobs (8M+ mensuales):
– Mejora en calidad de matching candidato-oferta gracias a pipelines de datos más confiables
– Experiencia de búsqueda de empleo optimizada por mejor gobernanza de datos
2. Empresas reclutadoras:
– Mejores candidatos sugeridos gracias a datos de mejor calidad
– Reducción en tiempo de contratación
3. Otras unidades de Adevinta:
– leboncoin (Francia), Kleinanzeigen (Alemania) replicando el framework
– Potencial impacto en 50M+ usuarios del ecosistema Adevinta global
4. Sector de empleo en España: Mejora en infraestructura de la plataforma líder de empleo beneficia al ecosistema laboral completo.
Indicadores o KPI de impacto
Personas beneficiadas:
– Directos: 12 personas del equipo de datos + ~25 stakeholders indirectos
– Indirectos: 8M+ usuarios mensuales de InfoJobs que se benefician de mejor calidad de datos
Eficiencia operativa:
– 80% reducción en tiempo de documentación técnica (de 4h a <1h por pipeline)
– 75% reducción en tiempo de creación de ADRs (de 2+ días a mismo día)
– 4x mejora en velocidad de onboarding (de 8 semanas a 2 semanas)
– 120 horas/mes liberadas del equipo para trabajo estratégico vs. documentación manual
Adopción y calidad:
– 400+ assets de datos documentados (vs. <30% previo)
– 90% cobertura de ADRs en decisiones arquitectónicas de 2025
– 60% adopción de prácticas dbt + Elementary en fase piloto
– 75% confianza del equipo en continuar prácticas de forma autónoma
Impacto económico:
– 80K€ ahorro anual proyectado en optimización de infraestructura cloud
– 20% reducción estimada en tiempo de resolución de incidentes de datos
Transferibilidad:
– Framework ya replicándose en 2+ plataformas adicionales de Adevinta (leboncoin, Kleinanzeigen)
– Potencial de impacto en 50M+ usuarios de ecosistema Adevinta global
Sostenibilidad post-proyecto:
– 2 meses operando de forma autónoma con resultados sostenidos
– Herramientas IA en producción utilizadas diariamente por el equipo
Capacidad tecnológica del proyecto
Computación:
– Cloud computing: AWS (primario) para infraestructura de datos
– Serverless: AWS Lambda para automatizaciones de documentación
– Notebooks: Databricks para análisis exploratorio y desarrollo de pipelines
Frameworks y herramientas:
– dbt (Data Build Tool): Framework core para transformaciones de datos y gobernanza
– Elementary: Plataforma de data observability integrada con dbt
– Confluence + JIRA: Knowledge base y project management, alimentando la IA
– Git/GitHub: Versionado de código, documentación y configuraciones
Modelos IA utilizados:
– Claude Code (Anthropic): LLM fundacional para generación de código, templates técnicos y documentación de arquitectura
– Gemini Pro (Google): LLM fundacional para análisis de schemas, generación de documentación semántica y procesamiento de lenguaje natural
Datos:
– Esquemas de datos: Redshift (AWS) + Databricks (multi-cloud) con cientos de tablas y pipelines
– Metadatos: Unity Catalog (Databricks) para gestión centralizada de metadatos
– Documentación histórica: Confluence, JIRA tickets, ADRs existentes utilizados para training/context de LLMs
– Volumen procesado: 400+ assets de datos documentados y catalogados
Interfaces:
– CLI tools: dbt CLI, scripts Python para automatización de documentación
– Web interfaces: Confluence para documentación colaborativa, Elementary UI para observabilidad
– AI assistants: Templates interactivos con prompts preparados para Confluence/Google Docs
– APIs: Integración RESTful con Claude API y Gemini API para generación de contenido
Integraciones clave:
– CI/CD pipeline: Integración de validación de documentación en GitHub Actions
– Slack notifications: Alertas de Elementary + bots de documentación faltante
– API orchestration: Flujos que combinan análisis de schema → generación IA → revisión humana → publicación
Sostenibilidad, huella ambiental y licencia social
Eficiencia energética y sostenibilidad ambiental:
El proyecto implementó medidas de optimización que reducen significativamente el impacto ambiental: caching inteligente de outputs de IA que minimiza llamadas redundantes a APIs, mejor visibilidad de lineage que identificó $80K anuales en pipelines obsoletos, y documentación automatizada que elimina 120h/mes de trabajo manual repetitivo. Estas prácticas sostenibles no solo reducen consumo directo de compute en datacenters, sino que establecen un framework escalable que multiplica beneficios ambientales a largo plazo mediante código reutilizable y reducción de ejecuciones exploratorias innecesarias.
Ética, equidad y licencia social:
Para mitigar sesgos algorítmicos se combinaron múltiples LLMs (Claude + Gemini) con revisión humana obligatoria, prompts inclusivos y documentación que no asume niveles de expertise específicos. El proyecto garantizó transparencia total con el equipo sobre uso de IA, sus limitaciones y propósito, asegurando que ninguna persona fue reemplazada sino liberada de tareas tediosas para trabajo estratégico. Las herramientas desarrolladas benefician equitativamente a todo el equipo (no solo perfiles senior), el onboarding 4x más rápido reduce brechas de conocimiento, y se aplicaron principios de data minimization procesando solo datos estrictamente necesarios con las APIs de IA, con el equipo capacitado en uso ético de LLMs.