Senior Reliability Engineer - Ingénieur fiabilité sénior

apartmentFlinks placeMontréal scheduleFull-time calendar_month2024-11-05

About Flinks 🚀

At Flinks, we’re not just building data infrastructure; we’re shaping the future of finance. Our mission is to empower consumers with control over their financial data and unlock its full potential. We equip fintechs and banks with cutting-edge data tools, enabling them to create innovative, client-centric products that are transforming the financial industry.

Flinks is trusted by hundreds of companies and connects over 250 million financial accounts. Our products power digital finance, helping businesses streamline their processes, improve user experiences, and drive the next wave of financial innovation.

We are the engine behind the future of digital finance, committed to creating open, consent-based exchanges of financial data.

About the Reliability Team

As a Senior Reliability Engineer, you will play a pivotal role in ensuring that our systems and applications run reliably while scaling rapidly. You’ll be handling Service Reliability Engineer (SRE) tasks within a support capacity, driving improvements in system stability, and acting as a leader in debugging and resolving complex production issues.

What You’ll Do

Provide live operational support for multiple client software applications, monitoring services and alerts to detect critical failures, ensuring rapid restoration of services and minimal downtime.
Develop and maintain code to resolve production issues quickly, leveraging strong development skills to ensure fast service recovery and long-term system stability.
Own and resolve incidents reported by clients and internal stakeholders, adhering to client SLA and internal SLO timelines.
Troubleshoot complex incidents, perform thorough root cause analyses, and implement solutions to prevent the recurrence of issues.
Utilize a data-driven approach to prepare detailed analyses and reports, presenting findings through charts, layouts, and diagrams.
Conduct deep technical analyses of product and feature deficiencies, addressing client pain points based on actual use cases.
Develop and enhance monitoring systems to proactively detect issues, implementing robust alert mechanisms to ensure continuous system stability.
Provide expert guidance on improving operational system stability and scalability.
Lead and execute initiatives that automate processes, improving operational efficiency across LiveOps.
Facilitate postmortem meetings following incidents, documenting findings, and assigning action items for future prevention.
Collaborate with cross-functional teams to ensure rapid resolution of production issues, implementing long-term fixes.
Lead and motivate project teams, ensuring tasks are completed on schedule and that high-quality standards are consistently met.
Mentor and provide ongoing training to reliability engineers, tracking their progress and ensuring adherence to high standards.
Actively contribute to maintaining the highest quality standards as the organization continues to scale.
Participate in after-hours on-call support as part of the LiveOps rotation.

Who You Are

Operationally focused with expertise in incident management and resolving live production issues
Strong debugging and troubleshooting skills, particularly in performance optimization of large-scale applications
Proven experience in building and maintaining reliable monitoring and alerting systems in high-demand environments, with a focus on production support
7+ years of experience with .NET Framework (C#), ensuring production system stability
Strong knowledge of Kubernetes, Docker, and cloud platforms (GCP preferred)
Proficiency with monitoring tools like Prometheus, Grafana, and Kibana
Experience with incident ticketing/documentation tools like FreshDesk and Confluence
Critical thinker who can identify system weaknesses and find innovative solutions
Strong project management skills with a focus on scalability and system stability
ITIL Service Management certification (or equivalent) is highly desired, such as ITIL v3, ITIL v4, or other equivalent certifications.
Experience with PowerBI, web scraping, or Golang (nice to have)

What’s in it for You?

Clear Impact: You'll ensure that millions of users have reliable access to their financial data, directly contributing to the success of Flinks and its customers.
Autonomy and Ownership: Senior Engineers at Flinks are empowered to lead major initiatives, drive strategy, and influence the direction of our tech stack.
Trailblazing Technology: Be part of a cutting-edge company at the forefront of open banking and financial data management, during a pivotal time of growth and innovation.
Professional Growth: You’ll be continuously challenged by working with a passionate, smart team on a variety of technical and business problems.

The Interview Process 🏗

People Ops Generalist
Team Lead Interview
Case Assignment & Presentation
Stakeholder Interview
Director Interview

À propos de Flinks 🚀

Chez Flinks, nous ne nous contentons pas de construire une infrastructure de données, nous façonnons l’avenir de la finance. Notre mission est de permettre aux consommateurs de contrôler leurs données financières et d’en exploiter tout le potentiel.

Nous équipons les entreprises de technologie financière et les banques d’outils de données de pointe, leur permettant de créer des produits innovants et centrés sur le client qui transforment le secteur financier.

Des centaines d’entreprises font confiance à Flinks, qui relie plus de 250 millions de comptes financiers. Nos produits alimentent la finance numérique, aidant les entreprises à simplifier leurs processus, à améliorer l’expérience des utilisateurs et à conduire la prochaine vague d’innovation financière.

Nous sommes le moteur de l’avenir de la finance numérique et nous nous engageons à créer des échanges de données financières ouverts et fondés sur le consentement.

À propos de l’équipe de fiabilité 🚒

En tant qu’ingénieur fiabilité sénior, vous jouerez un rôle essentiel en veillant à ce que nos systèmes et applications fonctionnent de manière fiable tout en évoluant rapidement. Vous serez chargé de tâches d’ingénieur fiabilité des services (SRE) dans le cadre d’une capacité d’assistance et de l’amélioration de la stabilité des systèmes, et en agissant en tant que leader dans le débogage et la résolution de problèmes de production complexes.

Ce que vous allez faire

Fournir une assistance opérationnelle en direct pour plusieurs applications logicielles de clients, en surveillant les services et les alertes afin de détecter les défaillances critiques et de garantir un rétablissement rapide des services et un temps d’arrêt minimal.
Développer et maintenir le code pour résoudre rapidement les problèmes de production, en s’appuyant sur de solides compétences en matière de développement pour assurer une reprise rapide des services et la stabilité à long terme du système.
Prendre en charge et résoudre les incidents signalés par les clients et les intervenants internes, en respectant les accords de niveau de service du client et les délais des accords de niveau de service internes.
Dépanner les incidents complexes, effectuer des analyses approfondies des causes profondes et mettre en œuvre des solutions pour éviter que les problèmes ne se reproduisent.
Utiliser une approche axée sur les données pour préparer des analyses et des rapports détaillés, en présentant les résultats sous forme de graphiques, de présentations et de diagrammes.
Effectuer des analyses techniques approfondies des lacunes des produits et des fonctionnalités, en abordant les problèmes des clients sur la base de cas d’utilisation réels.
Développer et améliorer les systèmes de surveillance afin de détecter les problèmes de manière proactive, en mettant en œuvre des mécanismes d’alerte robustes pour assurer la stabilité continue du système.
Fournir des conseils d’expert sur l’amélioration de la stabilité et de l’évolutivité des systèmes opérationnels.
Diriger et exécuter des initiatives qui automatisent les processus, en améliorant l’efficacité opérationnelle à travers LiveOps.
Animer des réunions post-mortem à la suite d’incidents, documenter les conclusions et assigner des mesures de suivi pour l’avenir.
Collaborer avec des équipes interfonctionnelles pour assurer la résolution rapide des problèmes de production et mettre en œuvre des correctifs à long terme.
Diriger et motiver les équipes de projet, en veillant à ce que les tâches soient accomplies dans les délais prévus et que les normes de qualité soient constamment respectées.
Encadrer et assurer la formation continue des ingénieurs en fiabilité, en suivant leurs progrès et en veillant à ce qu’ils respectent des normes élevées.
Contribuer activement au maintien des normes de qualité les plus élevées au fur et à mesure que l’organisation se développe.
Participer au soutien sur demande en dehors des heures de travail dans le cadre de la rotation LiveOps.

Qui vous êtes 💪

Orienté vers l’opérationnel, avec une expertise dans la gestion des incidents et la résolution des problèmes de production en direct
Solides compétences en matière de débogage et de dépannage, notamment en ce qui concerne l’optimisation des performances des applications à grande échelle
Expérience confirmée dans la mise en place et la maintenance de systèmes de surveillance et d’alerte fiables dans des environnements à forte demande, avec un accent particulier sur le soutien à la production
Plus de 7 ans d’expérience avec .NET Framework (C#), assurant la stabilité du système de production
Solide connaissance de Kubernetes, Docker et des plateformes infonuagiques (GCP de préférence)
Maîtrise des outils de surveillance tels que Prometheus, Grafana et Kibana
Expérience des outils de documentation et de suivi des incidents tels que FreshDesk et Confluence
Penseur critique capable de cerner les faiblesses du système et de trouver des solutions innovantes
Solides compétences en matière de gestion de projet, l’accent étant mis sur l’évolutivité et la stabilité du système
Atouts
Une certification en gestion des services ITIL (ou équivalent) est fortement souhaitée, telle qu’ITIL v3, ITIL v4, ou d’autres certifications équivalentes
Expérience avec PowerBI, web scraping, ou Golang (souhaitable)

Qu’est-ce qui vous attend?

Impact clair : Vous veillerez à ce que des millions d’utilisateurs aient un accès fiable à leurs données financières, contribuant ainsi directement au succès de Flinks et de ses clients.
Autonomie et propriété : Les ingénieurs seniors de Flinks sont habilités à mener des initiatives majeures, à conduire la stratégie et à influencer la direction de notre pile technologique.
Une technologie d’avant-garde : Faites partie d’une entreprise de pointe, à l’avant-garde du système bancaire ouvert et de la gestion des données financières, dans une période charnière de croissance et d’innovation.
Croissance professionnelle : Vous serez continuellement mis au défi en travaillant avec une équipe passionnée et intelligente sur une variété de problèmes techniques et commerciaux.

Le processus d’entrevue 🏗

Gestionnaire des opérations humaines
Entrevue avec le chef d’équipe
Affectation et présentation d’un cas
Entrevue avec les intervenants
Entrevue avec le directeur

starFeatured

Senior cloud engineer- contract

apartmentRandstadplaceMontréal

business applications/integrations. They work as part of the larger Cloud organization consisting of Networking, IT Security, Development, Operations, and Site Reliability Engineering teams to build effective, secur...

check_circleNew offer

Home health care worker - Montréal

apartmentVianney Godbout-LescouzeresplaceMontréal

Overview Languages English or French Education • Registered Apprenticeship certificate • or equivalent experience • Health aides/attendants/orderlies, other Experience 1 to less than 7 months On site Work must be completed at the...

business_centerHigh salary

Receptionist

apartmentGroupe CGIplaceMontréal

Monday to Friday (40 hours), punctuality is required. • Work from the office at 1611 Boul Crémazie E, Montreal, QC H2M 2P2 • 1 to 3 years of relevant experience, particularly as a receptionist or in a job related to customer service • Strong sense...

Recommended jobs:

Automation Engineer Jobs in Montréal

Aerospace Engineer Jobs in Montréal 3 Urgent

Engineering Intern Jobs in Montréal

Engineering Summer Jobs in Montréal 7 Urgent

Bridge Engineer Jobs in Montréal