Le projet Onyxia

Comment tirer parti
des technologies cloud
sans se faire enfermer ?

2024-06-14

Qui suis-je ?

  • Ancien contributeur à la communauté R (pagedown, utilitR)
  • Responsable du SSP Lab, le Lab de Data Science de l’Insee

Les besoins de traitement de données à l’Insee

  • Un millier de personnes touchant la donnée avec des langages de programmation (R, python…)
  • Depuis plus de 15 ans, un écosystème en très forte évolution
  • Développement de la data science : des besoins plus vastes et hétérogènes
  • L’infrastructure : facilitateur ou frein pour l’innovation ?

L’évolution de l’informatique pour le traitement de données

A l’Insee :

  • 1940s-1960s : mécanographie
  • 1960s-1990s : ordinateurs centraux (mainframes)
  • 1990s-2010s : ordinateurs personnels (PC)
  • 2010s-… : serveurs mutualisés/bureau à distance
  • 2023 : technologies cloud

Les enjeux

  • Puissance de calcul
    • Les PC ont leurs limites
  • Besoin d’une grande flexibilité (outils, langages, packages…) mais aussi de reproductibilité
  • Sécurité des données/contrôle d’accès
    • Le PC est un environnement à proscrire
  • Le passage en production
    • Déploiement d’applications/API
    • MLOps (orchestration/monitoring)
  • Risque d’enfermement propriétaire

Les opportunités des technologies cloud

  • Conteneurs (Docker)
    • Flexibles et portables
    • Facilitent la reproductibilité
  • Orchestrateur de conteneurs (Kubernetes)
    • Passage à l’échelle
    • Facilite le passage en production
  • Stockage objet (S3)
    • Facilite la gestion des données (data lake)
    • Facilite l’usage de la donnée

L’ADN du projet Onyxia

  • Une plateforme orientée data science facilitant le passage en production
  • 100% open source (licence MIT)
  • Aucun enfermement propriétaire
    • Onyxia ne doit pas devenir indispensable
  • 100% cloud native
  • Déployable n’importe où (clouds publics, on premises…)

Onyxia en action

Les choix structurants

Des choix techniques

  • Kubernetes
  • S3
  • (Vault)

Mais qui ont aussi des conséquences pratiques pour l’utilisateur

  • environnements de travail volatiles
  • utiliser git
  • utiliser S3

Onyxia : une interface comme liant technique

Une interface qui favorise l’autonomie

Un large catalogue de services

Onyxia ne fait et ne fera pas tout

Au coeur :

  • Lanceur de charts helm
  • Explorateur de fichiers et de données

Ajoutez-y, au choix :

  • Une forge git, un registre d’images…
  • Une gouvernance des données, un catalogue de données…
  • Un catalogue de services
  • Des services de déploiement (sk8), un API manager…

SSP Cloud

Un datalab en ligne https://datalab.sspcloud.fr pour

  • prototyper
  • se former
  • exclusivement sur des données ouvertes
  • accessible aux acteurs de l’ESR
  • un service en best effort
  • un catalogue de formations à la data science

La communauté Onyxia onyxia.sh

  • Un slack
  • Community meetings chaque dernier vendredi du mois
  • Retrouvez les acteurs ayant adopté Onyxia : Insee, Statistics Norway, Mercator Ocean International, GENES…

L’avenir

  • Onyxia retenu par Eurostat comme logiciel de référence pour créer des datalabs en IA/ML
  • De nombreux acteurs publics et privés s’intéressent à Onyxia
  • Des ESN déjà positionnées pour aider au déploiement d’Onyxia

Questions ?

Retrouvez cette présentation : https://rlesur.github.io/rr2024