Missions
Mettre en favori

Data Engineer (H/F) - Paris

# 79354
Paris
LUXURY & CLOTHING INDUSTRY
à partir de 26 avr.
Temps plein
#Data Science & BI#GCP - Google Cloud Platform#Spark#Scala#AWS
Partager

Contexte

Je cherche pour l'un de nos clients un Data Engineer pour rejoindre leur équipe de développeurs, devops et testeurs travaillant avec la méthodologie SCRUM dans un esprit innovatif

Mission

  • Ingestion des données sources via NIFI dans des tables de travail Cassandra ou en parquet sur AWS S3
  • Développement des Traitements Spark/Scala en lots des données sources ingérées
  • Traitement au quotidien des nouvelles données clients (ajout nouveaux clients
  • Enrichissement au quotidien des données des clients avec des fichiers de scoring et de segmentation (fournis par un autre projet)
  • Traitement toutes les 8 heures des nouvelles ventes avec notamment la mise à jour des ventes auditées ainsi que l’enrichissement des ventes avec les données des clients
  • Ingestion toutes les 8 heures des données des ventes dans Druid
  • Ajout et mise à jour des nouveaux produits des marques avec leur description, leur taille, leurs stocks ….
  • Traitement en temps réel via Kafka/Spark des données sources fournies par les marques dans les topics dédiés :
  • Enrichissement des données des produits des différentes marques en temps réel avec les informations des stocks, des prix
  • Mise à jour temps réel des données des ventes
  • Mise à jour temps réel des données clients
  • Mise à jour des commandes clients
  • Anonymisation des informations clients (RGPD)
  • Mise à jour des stocks disponibles en magasin
  • Exposition des informations des produits en transit (magasin d’origine, magasin destination) afin que les utilisateurs de Luce puissent estimer leurs dates de livraison
  • Traitement et Stockage des données dans Apache Solr et Cassandra
  • Exposition des données traitées dans une API nodejs à travers Cassandra et Solr
  • Ingestion des données des ventes et commandes sur Apache Druid via NIFI
  • Mise en place de tests automatiques afin d’éviter les régressions suite aux nouvelles évolutions
  • Développement de tests unitaires avant déploiement
  • Garantie de la cohérence des données
  • Planification des heures de lancement des différents traitements afin d’éviter d’avoir des données corrompues
  • Déploiement des différents traitements Spark via Jenkins/Livy dans les environnements dédiés
  • Monitoring des Jobs Spark via Yarn et Spark UI avec un système d’alerting via Slack en cas de problème durant les traitements
  • Suivi des performances des différents jobs de traitements Data (de Spark) avec Grafana comme outil de profiling (visualisation de la mémoire utilisée par les différents exécuteurs, le garbage collector et le driver)
  • Mise en place de logs qui seront ensuite déposés dans ElasticSearch afin de faciliter la résolution et la recherche des bugs
  • Optimisation des différents traitements Data (optimisation du code Spark, des traitements NIFI)
  • Migration de tous nos workflows NIFI, traitements de données en lots/ temps réel Spark sur Amazon AWS
  • Migration Spark 2 vers Spark 3 impliquant notamment de mettre à jour le code
  • Migration de l’api ainsi que des tables et collections utilisées dans Cassandra
  • Environnement sur AWS
  • Ordonnancement des tâches via Airflow/Python, gestion des différentes dépendances entre les traitements
  • Mise à jour d’une librairie Airflow pour le lancement de nos Jobs Sparks ainsi que le monitoring (vérification des statuts des traitements). Mise en place des capteurs (sensors) nécessaires pour le suivi des statuts des traitements
  • Mise à jour d’une librairie générique Spark pour les jobs d’ingestion via parquet/csv/json
  • Sprint de trois semaines avec un point chaque jour pour savoir l’avancement de chaque tâche et à la fin du sprint une démonstration et une rétrospective sont organisées.

Profil recherché

Gestion du projet :

  • Expérience en méthodologie Scrum
  • Bonne évaluation et priorisation des améliorations possibles.

Stack technique : Scala, Python, Spark, Kafka, NIFI Airflow, AWS, Cassandra, Solr, Jenkins, Git, Grafana, Druid, ElasticSearch, Kibana, SQL

Avantages

  • Démarrage mi-juin
  • Région parisienne + remote (hybrid)
  • TJM selon profil
  • Mission de longue durée

Adrien Delacôte

Key Account Manager

adelacote@mindquest.io

+33 7 57 90 31 58

avatar

Sarha

Talent Acquisition Specialist

sbouzouina@mindquest.io

+33 7 57 91 82 04

Postuler

Localisation

Veuillez indiquer votre localisation

Ce site utilise des cookies pour offrir une meilleure expérience de navigation. Découvrez comment nous utilisons les cookies dans notrepolitique de confidentialité