Le projet Onyxia
Comment tirer parti
des technologies cloud
sans se faire enfermer ?
2024-06-14
Qui suis-je ?
![]()
- Ancien contributeur à la communauté R (pagedown, utilitR)
- Responsable du SSP Lab, le Lab de Data Science de l’Insee
Les besoins de traitement de données à l’Insee
- Un millier de personnes touchant la donnée avec des langages de programmation (R, python…)
- Depuis plus de 15 ans, un écosystème en très forte évolution
- Développement de la data science : des besoins plus vastes et hétérogènes
- L’infrastructure : facilitateur ou frein pour l’innovation ?
Les enjeux
- Puissance de calcul
- Besoin d’une grande flexibilité (outils, langages, packages…) mais aussi de reproductibilité
- Sécurité des données/contrôle d’accès
- Le PC est un environnement à proscrire
- Le passage en production
- Déploiement d’applications/API
- MLOps (orchestration/monitoring)
- Risque d’enfermement propriétaire
Les opportunités des technologies cloud
- Conteneurs (Docker)
- Flexibles et portables
- Facilitent la reproductibilité
- Orchestrateur de conteneurs (Kubernetes)
- Passage à l’échelle
- Facilite le passage en production
- Stockage objet (S3)
- Facilite la gestion des données (data lake)
- Facilite l’usage de la donnée
L’ADN du projet Onyxia
- Une plateforme orientée data science facilitant le passage en production
- 100% open source (licence MIT)
- Aucun enfermement propriétaire
- Onyxia ne doit pas devenir indispensable
- 100% cloud native
- Déployable n’importe où (clouds publics, on premises…)
Les choix structurants
Des choix techniques
Mais qui ont aussi des conséquences pratiques pour l’utilisateur
- environnements de travail volatiles
- utiliser git
- utiliser S3
Onyxia : une interface comme liant technique
Une interface qui favorise l’autonomie
Un large catalogue de services
Onyxia ne fait et ne fera pas tout
Au coeur :
- Lanceur de charts helm
- Explorateur de fichiers et de données
Ajoutez-y, au choix :
- Une forge git, un registre d’images…
- Une gouvernance des données, un catalogue de données…
- Un catalogue de services
- Des services de déploiement (sk8), un API manager…
La communauté Onyxia onyxia.sh
- Un slack
- Community meetings chaque dernier vendredi du mois
- Retrouvez les acteurs ayant adopté Onyxia : Insee, Statistics Norway, Mercator Ocean International, GENES…
L’avenir
- Onyxia retenu par Eurostat comme logiciel de référence pour créer des datalabs en IA/ML
- De nombreux acteurs publics et privés s’intéressent à Onyxia
- Des ESN déjà positionnées pour aider au déploiement d’Onyxia