Site Reliability Engineer - Object Storage

À propos

OVHcloud, leader européen du cloud computing, est présent dans une quinzaine de pays et fournit des solutions d’hébergement et de cloud sécurisées, fiables et accessibles.

Dans un monde où le numérique occupe une place prédominante et est en constante évolution, nous croyons que l’avenir réside dans un cloud ouvert, fiable et durable, qui permet aux utilisateurs de choisir en toute liberté la façon dont ils souhaitent gérer leurs données.

Nous privilégions toujours le collectif, c’est pourquoi nous travaillons de manière rapprochée avec et pour notre écosystème composé tout d'abord de nos collaboratrices et collaborateurs, de nos clients, de nos partenaires et d’acteurs institutionnels.

  • Fondée en 1999
  • 2 900 collaborateurs dans 15 pays
  • 40+ data centres

Descriptif du poste

Site Reliability Engineer - Object Storage H/F/N

Au sein de votre équipe #OneTeam

  • Vous évoluerez au sein de l'Unité Object Storage qui gère l'ensemble des offres du même nom chez OVHcloud et dont l'ambition est de construire l'offre la plus performante et efficace du marché.
  • En tant que Site Reliability Engineer dans ce département, afin de renforcer nos équipes et d'accélérer notre croissance, vous nous accompagnerez dans l'évolution, l'industrialisation et le maintien en condition opérationnelle de l'ensemble de nos produits.


Vos principales responsabilités
  • Assurer la haute disponibilité, la fiabilité et la sécurité de nos plateformes d'Object Storage.
  • Suivre les indicateurs de performance des plateformes et participer à leurs améliorations.
  • Assurer que les clients reçoivent un support technique complet chaque fois que cela est nécessaire et mettre en œuvre, appliquer et automatiser les procédures pour résoudre les problèmes courants.
  • Impliquer dans une démarche d'amélioration continue, vous serez force de proposition en ce qui concerne les actions pour prévenir les incidents et vous mettrez en oeuvre leur automatisation.
  • Contribuer aux évolutions des outils de déploiement, de packaging, de monitoring et d'alerting.
  • Monitorer les montées de version logicielles.
  • Challenger les architectures logicielles et matérielles pour en améliorer les performances, la haute disponibilité ainsi que la scalabilité.
  • Suivre l'adoption des produits, les usages de nos clients et vous collaborez avec les équipes techniques ainsi que commerciales pour enrichir backlog et roadmap.


Votre futur impact

Dans 6 mois vous
  • Serez monté en compétences sur l'environnement technique de nos clusters Object Storage et aurez contribué à le faire évoluer (Automatisation, Supervision, Industrialisation, fix techniques ...).
  • Aurez participé en binome aux cycles de RUN de nos plateformes (traitement de demandes clients, traitement des alertes).
  • Aurez découvert les différents usages de nos produits par nos clients.


Et dans 1 an vous
  • Serez un élément moteur dans nos process d'amélioration continue.
  • Participerez aux évolutions majeures de nos solutions.
  • Participerez aux cycles d'astreintes de notre équipe SRE.
  • Participerez aux cycles de RUN en autonomie.

_

Compétences requises :
  • Vous êtes à l'aise en administration GNU/Linux.
  • Vous maitrisez un ou plusieurs langages de scripting (Python).
  • Vous avez une expérience en automatisation et déploiement (Puppet, Ansible).
  • Vous avez déjà travaillé sur des architectures micro services complexes.
  • Vous maitrisez les outils de supervision et d'observabilité (Icinga / Prometheus / Alertmanager).
  • Vous avez fait de l'orchestration d'infrastructure à grande échelle (Temporal).


C'est un +
  • Vous avez une connaissance des API AWS S3.
  • Appétence pour l'IA.

Informations complémentaires

  • Type de contrat : CDI
  • Lieu : Roubaix
  • Unknown