root@ Sysadmin_Days :/ 8 #

18 - 19 octobre 2018
Paris

SysadminDays est une conférence technique dédiée aux métiers de l'administration système.

Cette huitième édition a eu lieu à Paris, les jeudi 18 et vendredi 19 Octobre 2018.

Le thème principal de cette année était l'observabilité (métriques, logs, alertes, traces…). Ces sujets, complexes et variés, sont présents dans toutes les infrastructures, peu importe leur taille, et sont un sujet récurrent de discussions et d'interrogations. De nombreux outils existent dans ces domaines mais savoir lesquels mettre en place ou lesquels sont adaptés à un besoin précis est un exercice délicat, dont les réponses sont en permanente évolution.

Nous remercions nos généreux sponsors

Mozilla France Scaleway Newlode Group Synthesio

Présentations

Jeudi 18 octobre

Prometheus, de la technique au business

Prometheus est le logiciel open source de monitoring qui a le vent en poupe. Retour d'expérience sur l'outil, et pourquoi sa valeur va bien plus loin que la technique, avec une cadence infernale de métriques ingérées.

Cette conférence démontrera que même un nombre réduit de métriques permet d'améliorer la stabilité et l'efficacité des équipes, mais également de rapprocher les différents métiers afin de mieux satisfaire les utilisateurs finaux.

Plomberie et écosystème Prometheus suivi d'un retour d'expérience chez Synthesio

Un coup d'oeil sur le fonctionnement de Prometheus, sa philosophie, ses partis pris et ses implications. Suivi d'un tour rapide de la TSDB interne de prometheus, ainsi que d'un état des lieux des Long Term Storage disponibles. Pour finir, le classique retour d'experience du passage à Prometheus chez Synthesio.

Comment le CCIN2P3 exploite 1 milliard d'observables par jour

Au CC on traite beaucoup de données scientifiques (capacité : le tiers d'un exaoctet), surtout celles du LHC (grand collisionneur de particules du CERN). Le bruit opérationnel généré par nos deux datacenters (logs et métriques) nous donne du fil à retordre : que faire du milliard d'événements journaliers qui nous est si précieux pour prévenir les pannes, comprendres les crashs, voire détecter un début d'incendie? C'est ce que je vais essayer de vous relater lors de ce talk.

Prevent business logic attacks using dynamic instrumentation

As application security practitioners, we know that the attacks representing the most significant business risk for our organizations are often attacks targeting sensitive business functions of our applications. Those go far beyond the OWASP Top 10 and make generic (existing?) security tools inefficient. We require very tailor-made solutions to cover our security needs.

This talk will show how to create a security automation tool using dynamic instrumentation that helps to prevent business logic attacks. Sensors are added to the application source code, business events collected in an analysis engine and automated responses are pushed back to the application at runtime. The presented tool is based on open source libraries, and easily extensible and pluggable to analysis engines such as Kibana or Splunk.

Dynamic instrumentation is a game changer because it allows security teams to add sensors remotely, in real time, without asking development teams to trigger a new build and a new deploy of their applications.

The talk will include concrete business examples to help the audience apply this strategy. It will also give tips to navigate through the various teams (fraud, developers, product, …) that own a different piece of this security puzzle.

Vendredi 19 octobre

Comprendre et configurer la stack réseau Linux

Le réseau sous Linux, ça fonctionne plutôt bien : on atteint de bonnes vitesses sans rien modifier, il y a plein de paramètres pour activer des fonctionnalités, les drivers sont disponibles nativement, il y a de la documentation sur le net... Mais pour les cas particuliers, des attaques, des optimisations... les choses se corsent ! Les tutoriaux ou bugs tickets proposent de modifier des sysctls, mais est-ce applicable pour notre cas ?

Pour comprendre l'impact des paramètres et sysctls, retraçons la vie d'un paquet, de son signal électrique jusqu'à sa consommation par l'application, en passant par toute la stack kernel : les interruptions, NAPI, routing, filtering, forwarding, et surtout, comment monitorer et modifier les différentes étapes...

Le load-balancer : point stratégique pour la remontée d'informations

Les load-balancers sont présents dans toutes les infra "modernes". Ce composant est devenu un outil indispensable à la scalabilité des applications.

Certains, comme HAPRoxy, contiennent une mine d'or d'informations qui sont très utiles pour connaître la santé de l'infrastructure et des applications et pour investiguer lorsque des problèmes surviennent.

Flash talk : Versions, a project to check versions

Know version changes of your favorites projects in your terminal. By the way how do you track version change ?

Flash talk : L'infrastructure As Code au grand complet avec Ansible, Terraform et Packer

Le principe d'infrastructure as code, permet de résoudre de nombreuses problématiques. Le principal intérêt est certainement de permettre à la fois l'automatisation et un contrôle fin de l'état de son infrastructure, avec historique des changements. Cette présentation tentera de donner un aperçu clair des capacités de trois outils, parmi les nombreux existants dans ce domaine: Ansible, Terraform et Packer. Nous montrerons également comment les faire fonctionner de concert de manière à disposer d'une solution complète et simple pour automatiser et gérer l'ensemble de ses architectures, même lorsqu'elles sont réparties sur plusieurs plateformes.

Flash talk : Docker: Choisir son storage driver pour la production

Docker est une solution de container facilitant le déploiement. C'est également un des pilliers des cluster Kubernetes. Sauf que vos images docker doivent être stockées quelque part et d'une certaine façon. En fonction de votre kernel, de votre distribution, de votre version de docker, et de votre storage driver, tout peut changer. Voici donc un petit récapitulatif de ce qu'il ne faut faire et ne pas faire !

Autour des requêtes des TSDB

Cela fait maintenant des années que des systèmes de stockage de métriques comme OpenTSDB ou Graphite existent. Au cours des dernières années, de nouveaux acteurs révolutionnent le stockage des séries temporelles avec les bases open-sources InfluxDB, Prometheus ou encore Warp10. Chaque base a ses forces et faiblesses, notamment au niveau de la scalabilité du système de stockage. Toutefois, elles ont toutes un système de requêtes différent. Certaines proposent des concepts simples quand d’autres semblent plus difficiles d’accès. Savoir comment accéder et analyser ces données est essentiel dans un projet de monitoring : et si on faisait un tour des méthodes existantes ?

Installez-vous confortablement, notre tour peut commencer ! Comment fonctionne la récupération des données avec OpenTSDB ? Quelles sont les requêtes possibles ? Qu’apportent aujourd’hui InfluxDB/Prometheus au monitoring IT ? Comment lire PromQl/InfluxQl et quelles sont les surprises de ces langages ? Pourquoi Graphite est-il encore à la mode ? Autant de questions auxquelles nous proposerons nos réponses. L’objectif est de mieux comprendre les différences, les limites mais aussi les points communs existant entre les différents outils à partir du cas d’utilisation du monitoring IT.

Monitoring sur le Cloud, problèmes et pistes de solution

Le monitoring par des outils comme Zabbix peut être à la fois très puissant mais peut aussi rapidement lever des faux positifs et nécessiter du développement sur de l'infrastructure éphémère comme le sont les infrastructures Cloud. Pour résoudre ces problématiques, des outils Open Source existent et permettent, lorsqu'ils sont combinés entre eux, de retrouver à peu près tout ce que l'on veut avec un détail assez précis.

Opérer HBase à grande échelle

Avec ses 27 datacenters, plus de 300k serveurs physiques et 1,3 million de clients, OVH opère une des infrastructures cloud les plus grandes au monde, sur lesquelles tournent des millions d'applications qui gèrent des millions de transactions par seconde. Pour faire le suivi d'une telle architecture, OVH a fait le choix de construire une plateforme unifiée de monitoring : OVH Metrics.

Basée sur des briques open source (Warp 10, HBase, Kafka...), OVH Metrics et ses plus de 300 machines est un système distribué complexe à opérer. Avec ses multiples composants, des dysfonctionnements surgissent à tout moment, nous devons donc les traiter comme la norme et pas l'exception. Pour y parvenir nous avons développé des outils qui nous permettent d'automatiser les opérations récurrentes sur la plateforme. C'est dans ce cadre que sont nés Sacha, Pokédex et Pokéball, trois outils pour simplifier et automatiser la gestion d'un cluster HBase.

Photos

Album Photo de SysadminDays sur Talegraph