Contexte

Je cherche pour l'un de nos clients un Data Engineer pour rejoindre leur équipe de développeurs, devops et testeurs travaillant avec la méthodologie SCRUM dans un esprit innovatif

Mission

Ingestion des données sources via NIFI dans des tables de travail Cassandra ou en parquet sur AWS S3
Développement des Traitements Spark/Scala en lots des données sources ingérées
Traitement au quotidien des nouvelles données clients (ajout nouveaux clients
Enrichissement au quotidien des données des clients avec des fichiers de scoring et de segmentation (fournis par un autre projet)
Traitement toutes les 8 heures des nouvelles ventes avec notamment la mise à jour des ventes auditées ainsi que l’enrichissement des ventes avec les données des clients
Ingestion toutes les 8 heures des données des ventes dans Druid
Ajout et mise à jour des nouveaux produits des marques avec leur description, leur taille, leurs stocks ….
Traitement en temps réel via Kafka/Spark des données sources fournies par les marques dans les topics dédiés :
Enrichissement des données des produits des différentes marques en temps réel avec les informations des stocks, des prix
Mise à jour temps réel des données des ventes
Mise à jour temps réel des données clients
Mise à jour des commandes clients
Anonymisation des informations clients (RGPD)
Mise à jour des stocks disponibles en magasin
Exposition des informations des produits en transit (magasin d’origine, magasin destination) afin que les utilisateurs de Luce puissent estimer leurs dates de livraison
Traitement et Stockage des données dans Apache Solr et Cassandra
Exposition des données traitées dans une API nodejs à travers Cassandra et Solr
Ingestion des données des ventes et commandes sur Apache Druid via NIFI
Mise en place de tests automatiques afin d’éviter les régressions suite aux nouvelles évolutions
Développement de tests unitaires avant déploiement
Garantie de la cohérence des données
Planification des heures de lancement des différents traitements afin d’éviter d’avoir des données corrompues
Déploiement des différents traitements Spark via Jenkins/Livy dans les environnements dédiés
Monitoring des Jobs Spark via Yarn et Spark UI avec un système d’alerting via Slack en cas de problème durant les traitements
Suivi des performances des différents jobs de traitements Data (de Spark) avec Grafana comme outil de profiling (visualisation de la mémoire utilisée par les différents exécuteurs, le garbage collector et le driver)
Mise en place de logs qui seront ensuite déposés dans ElasticSearch afin de faciliter la résolution et la recherche des bugs
Optimisation des différents traitements Data (optimisation du code Spark, des traitements NIFI)
Migration de tous nos workflows NIFI, traitements de données en lots/ temps réel Spark sur Amazon AWS
Migration Spark 2 vers Spark 3 impliquant notamment de mettre à jour le code
Migration de l’api ainsi que des tables et collections utilisées dans Cassandra
Environnement sur AWS
Ordonnancement des tâches via Airflow/Python, gestion des différentes dépendances entre les traitements
Mise à jour d’une librairie Airflow pour le lancement de nos Jobs Sparks ainsi que le monitoring (vérification des statuts des traitements). Mise en place des capteurs (sensors) nécessaires pour le suivi des statuts des traitements
Mise à jour d’une librairie générique Spark pour les jobs d’ingestion via parquet/csv/json
Sprint de trois semaines avec un point chaque jour pour savoir l’avancement de chaque tâche et à la fin du sprint une démonstration et une rétrospective sont organisées.

Profil recherché

Gestion du projet :

Expérience en méthodologie Scrum
Bonne évaluation et priorisation des améliorations possibles.

Stack technique : Scala, Python, Spark, Kafka, NIFI Airflow, AWS, Cassandra, Solr, Jenkins, Git, Grafana, Druid, ElasticSearch, Kibana, SQL

Avantages

Démarrage mi-juin
Région parisienne + remote (hybrid)
TJM selon profil
Mission de longue durée

Adrien Delacôte

Key Account Manager

adelacote@mindquest.io

+33 7 57 90 31 58

Sarha

Talent Acquisition Specialist

sbouzouina@mindquest.io

+33 7 57 91 82 04

Postuler

Localisation

En voitureEn transport en commun

Veuillez indiquer votre localisation

Ce site utilise des cookies pour offrir une meilleure expérience de navigation. Découvrez comment nous utilisons les cookies dans notrepolitique de confidentialité

Data Engineer (H/F) - Paris

Partager

Contexte

Mission

Profil recherché

Avantages

Sarha

Localisation

Stocker et/ou accéder à des informations sur un terminal

Sélectionner des publicités standard

Créer un profil personnalisé de publicités