Ce guide vous aide à connecter les instruments de données relatives aux sciences de la vie et les fichiers des systèmes de laboratoire au Cloud AWS, soit par Internet, soit par une connexion directe à faible latence. Vous pouvez réduire les dépenses liées au stockage pour les données les moins consultées ou rendre ces dernières accessibles pour le calcul haute performance pour la génomique, l’imagerie et d’autres charges de travail intensives, le tout sur AWS.
Diagramme d’architecture
Étape 1
Un technicien de laboratoire exécute une expérience ou un test et les résultats sont enregistrés dans un dossier sur un serveur de fichiers sur site. Une tâche AWS DataSync est configurée pour synchroniser les données du stockage local sur un compartiment dans Amazon Simple Storage Service (Amazon S3).
Étape 2
Les données sont transférées vers le Cloud AWS, soit par Internet, soit par une connexion directe à faible latence qui évite l’utilisation d’Internet, comme AWS Direct Connect.
Étape 3
Les carnets de laboratoire électroniques (ELN) et les systèmes de gestion des informations de laboratoire (LIMS) partagent les métadonnées des expériences et des tests de manière bidirectionnelle avec le Cloud AWS par le biais des événements et des API. Pour en savoir plus sur cette intégration, consultez Conseils pour un maillage de données de laboratoire sur AWS.
Étape 4
Les entités partenaires, telles qu’un organisme de recherche sous contrat (CRO), peuvent charger les résultats des études sur Amazon S3 en utilisant AWS Transfer Family pour FTP, SFTP ou FTPS.
Étape 5
Vous pouvez optimiser les coûts de stockage en rédigeant les données des instruments dans un compartiment S3 configuré pour un accès peu fréquent. Identifiez vos modèles d’accès au stockage S3 afin de configurer de manière optimale la politique de cycle de vie de votre compartiment S3 et de transférer les données vers Amazon S3 Glacier.
Étape 6
Grâce à Amazon FSx pour Lustre, les données sont mises à disposition pour le calcul haute performance (HPC) sur le cloud pour la génomique, l’imagerie et d’autres charges de travail intensives, afin de fournir un système de fichiers partagé dont la faible latence se compte en millisecondes.
Étape 7
Les pipelines bioinformatiques sont orchestrés avec AWS Step Functions, AWS HealthOmics et AWS Batch pour un calcul flexible des processeurs et des GPU.
Étape 8
Le machine learning est réalisé à l’aide d’une boite à outils d’intelligence artificielle et de machine learning (IA/ML) qui utilise Amazon SageMaker pour l’ingénierie des fonctionnalités, l’étiquetage des données, l’entraînement de modèles, le déploiement et les opérations de ML. Amazon Athena est utilisé pour les requêtes SQL flexibles.
Étape 9
Les chercheurs qui utilisent des applications sur site pour l’analyse des données et la création de rapports peuvent consulter les données et y accéder dans Amazon S3 à l’aide des protocoles NFS (Network File System) ou SMB (Server Message Block) par la passerelle de fichiers Amazon S3.
Piliers AWS Well-Architected
Le cadre AWS Well-Architected vous permet de comprendre les avantages et les inconvénients des décisions que vous prenez lors de la création de systèmes dans le cloud. Les six piliers du cadre vous permettent d'apprendre les bonnes pratiques architecturales pour concevoir et exploiter des systèmes fiables, sécurisés, efficaces, rentables et durables. Grâce à l'outil AWS Well-Architected Tool, disponible gratuitement dans la console de gestion AWS, vous pouvez examiner vos charges de travail par rapport à ces bonnes pratiques en répondant à une série de questions pour chaque pilier.
Le diagramme d'architecture ci-dessus est un exemple de solution créée en tenant compte des bonnes pratiques Well-Architected. Pour être totalement conforme à Well-Architected, vous devez suivre autant de bonnes pratiques Well-Architected que possible.
-
Excellence opérationnelle
À mesure que de nouvelles sources de données et de nouveaux partenaires apparaissent, divers services de transfert de données peuvent être utilisés pour s’adapter à l’évolution de ces modèles d’accès. Pour les environnements multisites, la passerelle de fichiers S3 peut être utilisée pour effectuer des transferts tout en conservant un cache sur site pour les autres applications. Transfer Family permet aux entités partenaires, telles que les CRO, de charger facilement les résultats des études.
-
Sécurité
À des fins de protection des données, nous vous recommandons de protéger les informations d’identification des comptes AWS et de configurer des comptes utilisateur individuels à l’aide d’AWS Identity and Access Management (IAM), afin que chaque utilisateur ne dispose que des autorisations nécessaires à l’accomplissement de ses tâches professionnelles. Nous vous suggérons également d’utiliser le chiffrement au repos, tandis que les services utilisent le chiffrement en transit par défaut.
-
Fiabilité
DataSync exploite un ou plusieurs points de terminaison d’un VPC pour veiller à ce que l’agent puisse atteindre un autre point de terminaison si une zone de disponibilité n’est pas disponible. DataSync est un service évolutif qui exploite des ensembles d’agents pour déplacer les données. Les tâches et les agents peuvent être mis à l’échelle en fonction de la demande relative à la quantité de données à migrer.
DataSync consigne tous les événements sur Amazon CloudWatch. En cas d’échec d’une tâche, des mesures peuvent être prises pour mieux comprendre le problème et déterminer là où la tâche échoue. Une fois les tâches terminées, des travaux de post-traitement peuvent être lancés pour terminer la phase suivante du processus de pipeline.
Amazon S3 offre une infrastructure de stockage hautement durable, pensée pour le stockage de données primaires et essentielles.
-
Efficacité des performances
Le stockage FSx pour Lustre garantit des temps de latence inférieurs à une milliseconde et un débit pouvant atteindre des centaines de Go/s, et prend en charge des millions d’opérations d’entrée/sortie.
-
Optimisation des coûts
En utilisant des technologies sans serveur qui sont mises à l’échelle à la demande, vous ne payez que les ressources que vous utilisez. Pour optimiser davantage les coûts, vous pouvez arrêter les environnements de bloc-notes dans SageMaker lorsqu’ils ne sont pas utilisés. Si vous n’avez pas l’intention d’utiliser le tableau de bord de visualisation Amazon QuickSight, vous pouvez choisir de ne pas le déployer pour réduire les coûts.
Les frais de transfert de données se répartissent en deux catégories principales : DataSync, qui est facturé en fonction du taux de Go transféré, et Direct Connect ou données de VPN transférées. En outre, des frais entre les zones de disponibilité peuvent s’appliquer si des points de terminaison d’un VPC sont utilisés.
-
Durabilité
Les métriques de CloudWatch permettent aux utilisateurs de prendre des décisions axées sur les données en fonction des alertes et des tendances. En utilisant largement les services gérés et la mise à l’échelle dynamique, vous réduisez l’impact environnemental des services de backend. La plupart des composants sont autonomes.
Ressources d'implémentation
Un guide détaillé d'expérimentation et d'utilisation est fourni dans votre compte AWS. Chaque étape de la construction du guide, y compris le déploiement, l'utilisation et le nettoyage, est examinée pour le préparer au déploiement.
L'exemple de code est un point de départ. Il s'agit d'un document validé par l'industrie, prescriptif mais non définitif, et d'un aperçu pour vous aider à commencer.
Contenu connexe
Building Digitally Connected Labs with AWS
Ce billet de blog décrit les outils, les bonnes pratiques et les partenaires qui aident les laboratoires du secteur des sciences de la vie à tirer pleinement parti de la mise à l’échelle et des performances du Cloud AWS.
Conseils pour un maillage de données de laboratoire sur AWS
Ce guide explique comment créer un système de gestion des données scientifiques qui intègre à la fois les données et les logiciels des instruments de laboratoire avec la gouvernance des données dans le cloud, la découverte des données et les pipelines bioinformatiques, en recueillant les principaux événements de métadonnées tout au long du processus.
Resilience crée un maillage de données mondial pour la connectivité des laboratoires sur AWS
Cette étude de cas décrit comment Resilience, un innovateur en matière de bioproduction, révolutionne la façon dont les nouveaux médicaments sont produits grâce à un réseau connecté pour le transfert de données sur AWS.
Clause de non-responsabilité
Les exemples de code, les bibliothèques de logiciels, les outils de ligne de commande, les preuves de concept, les modèles ou toute autre technologie connexe (y compris tout ce qui précède qui est fourni par notre personnel) vous sont fournis en tant que contenu AWS en vertu du contrat client AWS ou de l'accord écrit pertinent entre vous et AWS (selon le cas). Vous ne devez pas utiliser ce contenu AWS dans vos comptes de production, ni sur des données de production ou autres données critiques. Vous êtes responsable des tests, de la sécurisation et de l'optimisation du contenu AWS, tel que les exemples de code, comme il convient pour une utilisation en production, en fonction de vos pratiques et normes de contrôle de qualité spécifiques. Le déploiement de contenu AWS peut entraîner des frais AWS pour la création ou l'utilisation de ressources payantes AWS, telles que l'exécution d'instances Amazon EC2 ou l'utilisation du stockage Amazon S3.
Les références à des services ou organisations tiers dans ce guide n'impliquent pas une approbation, un parrainage ou une affiliation entre Amazon ou AWS et le tiers. Les conseils fournis par AWS constituent un point de départ technique, et vous pouvez personnaliser votre intégration avec des services tiers lorsque vous déployez l'architecture.