DNAnexus et Amazon Web Services (AWS) optimisent la technologie de la plateforme d'analyse de la recherche de UK Biobank

Résumé

Les chercheurs du monde entier devaient pouvoir accéder en toute sécurité à UK Biobank, une base de données biomédicale et une ressource de recherche de plusieurs pétaoctets. DNAnexus, un partenaire AWS, a tiré parti d'Amazon S3 et d'Amazon EC2 pour créer et exploiter une plateforme à capacité de mise à l'échelle qui permet aux utilisateurs approuvés de visualiser et d'analyser en toute sécurité des « copies électroniques » des fichiers dans un environnement virtuel. Cela a permis de garantir la sécurité des données de santé et de démocratiser l'accès aux données pour les chercheurs qui ne disposent pas de leur propre infrastructure de stockage et d'analyse.

Comprendre les différents facteurs

Pour comprendre et traiter des maladies complexes telles que le diabète de type 2, le cancer ou la maladie d'Alzheimer, les scientifiques doivent comprendre la relation entre les facteurs génétiques, environnementaux et ceux liés au mode de vie au fil du temps. Les données longitudinales de cette nature sont extrêmement difficiles à recueillir. C'est pourquoi la communauté scientifique mondiale peut réellement bénéficier d'un jeu de données biomédicales collaboratif à grande échelle et d'une ressource de recherche connue sous le nom de UK Biobank.

Selon une étude de 2019 sur la démence, basée sur des données provenant de 196 383 participants de UK Biobank, suivre un mode de vie sain pourrait réduire le risque de démence, quel que soit le risque génétique. Les résultats ont montré que les interventions pouvaient compenser le risque génétique de la démence. Une étude réalisée en 2018 auprès de 472 000 participants de UK Biobank âgés de 40 à 69 ans a conclu que le tabagisme, le diabète et l'hypertension artérielle augmentaient davantage le risque de crise cardiaque chez les femmes que chez les hommes. Chez les femmes, l'hypertension artérielle était associée à un risque plus élevé de 80 pour cent que chez les hommes en général. Parmi les patients atteints de diabète de type 1, le risque de crise cardiaque chez les femmes était presque trois fois plus élevé que chez les hommes, tandis que chez les patients diabétiques de type 2, le risque était 47 pour cent plus élevé.

Entre 2006 et 2010, UK Biobank a recruté 500 000 volontaires sur l'ensemble du Royaume-Uni. Chacun a fourni des informations détaillées sur son mode de vie et ses mesures physiques, y compris des échantillons de sang, d'urine et de salive à conserver pour une analyse ultérieure. UK Biobank a mis en place une collecte de données continue, associée à l'intégration de dossiers médicaux électroniques, ce qui a permis de générer des dizaines de milliers de points de données pour chaque participant. Des données de génotypage complètes ont été ajoutées en 2017 et les données de séquençage du génome entier des 500 000 participants seront rendues publiques début 2023 (le volet de séquençage a été récemment achevé). UK Biobank prévoit que sa base de données dépassera les 40 pétaoctets de données d'ici 2025.

L'objectif général de cette collecte de données à grande échelle est d'aider les chercheurs agréés du monde entier à mieux comprendre, prévenir et traiter un large éventail de maladies. Cependant, un jeu de données de cette ampleur et de cette complexité crée un défi sans précédent en matière de gestion des données. C'est ici que DNAnexus entre en jeu. Partenaire de longue date d'AWS pour les compétences en sciences de la vie, DNAnexus a été fondé en 2009 avec pour mission d'aider les chercheurs scientifiques à accéder à des données biomédicales complexes, à les analyser et à les rendre opérationnelles en toute sécurité. Sa plateforme à capacité de mise à l'échelle favorise la collaboration et permet aux utilisateurs d'analyser simultanément plusieurs types de données, notamment des données génomiques et cliniques. Il s'agit d'une caractéristique cruciale pour les chercheurs qui s'efforcent de déchiffrer des maladies complexes.

« Le principal défi était de rassembler les données en un seul endroit afin que les chercheurs puissent analyser des millions de mesures portant sur un large éventail de types de données, notamment la génétique, le mode de vie et l'imagerie, le tout sans réplication des données », explique Asha Collins, responsable générale de
Biobanks chez DNAnexus. « De manière tout aussi importante, nous avons dû réfléchir à la manière de fournir les capacités de calcul et de stockage de données nécessaires pour permettre aux chercheurs de travailler facilement avec cet énorme jeu de données. »

En 2020, DNAnexus et AWS ont entamé une collaboration de trois ans avec UK Biobank afin de démocratiser l'accès aux données. Ensemble, ils ont remplacé les téléchargements de données coûteux et fastidieux par une plateforme d'analyse de recherche (Research Analysis Platform, RAP) innovante basée sur le cloud qui permet
aux chercheurs d'accéder à l'ensemble de la base de données de UK Biobank et de l'analyser en toute sécurité depuis n'importe où dans le monde. Parallèlement au développement initial, UK Biobank a compris que le succès reposait sur la capacité de la plateforme à gérer des quantités croissantes de données et à fournir des outils d'analyse dans un environnement centralisé.

« Le principal défi était de rassembler les données en un seul endroit, afin que les chercheurs puissent analyser des millions de mesures couvrant différents types de données, notamment la génétique, le mode de vie et l'imagerie, le tout sans réplication des données. De manière tout aussi importante, nous avons dû réfléchir à la manière de fournir les capacités de calcul et de stockage de données nécessaires pour permettre aux chercheurs de travailler avec cet énorme jeu de données. 

-Asha Collins, responsable générale de Biobanks chez DNAnexus

Partage de « copies électroniques »

Les chercheurs ont d'abord accédé aux fichiers de UK Biobank via des systèmes de diffusion de données personnalisés, qui regroupaient les premières données tabulaires afin que les chercheurs puissent les télécharger et les analyser dans leur propre environnement. Mais à mesure que de plus en plus de données sont devenues disponibles et qu'un plus grand nombre de chercheurs y ont demandé l'accès, l'approche individuelle est devenue intenable. Fin 2021, plus de 28 000 scientifiques universitaires et industriels de plus de 90 pays différents avaient été autorisés à accéder à la base de données et aux ressources de recherche de UK Biobank.

« Nous atteignons aujourd'hui une telle ampleur qu'il n'est tout simplement ni efficace ni rentable pour tous ces groupes de conserver de multiples copies de données dans le monde entier », a déclaré Mark Effingham, PDG adjoint de UK Biobank. « Nous devions adopter une approche différente, afin de placer nos chercheurs agréés au sein d'un environnement dans lequel ils peuvent utiliser les données. »

DNAnexus a créé une alternative sécurisée qui a réduit l'infrastructure et les coûts imposés aux utilisateurs de UK Biobank. Une version unique des données est stockée à l'aide d'Amazon Simple Storage Service (Amazon S3), une infrastructure cloud pouvant être mise à l'échelle capable de prendre en charge et de suivre le rythme de la croissance continue de UK Biobank.

La plateforme fournit intelligemment les données aux chercheurs, minimisant ainsi toute duplication des données. Les chercheurs n'ont pas directement accès à ces fichiers. Ils fonctionnent plutôt via un environnement virtuel qui fournit des « copies électroniques » des sous-ensembles de données auxquels ils sont autorisés à accéder.

La collaboration s'appuie également sur Amazon Elastic Compute Cloud (Amazon EC2), un service qui fournit une capacité de calcul sécurisée et redimensionnable dans le cloud. Grâce à Amazon EC2, DNAnexus fournit une plateforme flexible à capacité de mise à l'échelle sur laquelle les chercheurs ne sont facturés que lorsqu'ils exécutent des analyses. La plateforme peut également tirer parti des instances Spot Amazon EC2, qui offrent jusqu'à 90 pour cent de réduction sur la tarification à la demande, de sorte que même les tâches les plus importantes peuvent être exécutées de manière économique.

« La collaboration avec DNAnexus et AWS sur cette plateforme crée un espace dans lequel les chercheurs peuvent non seulement participer et effectuer leurs propres analyses de données, mais ils peuvent également utiliser de manière rentable une infrastructure cloud, des capacités de calcul et un stockage pouvant tous être mis à l'échelle pour réellement prendre en charge ces analyses, où qu'ils travaillent », explique Mark Effingham. « Nous sommes fiers de fournir une plateforme de recherche qui maximise la valeur des données et démocratise l'accès pour tous les chercheurs du monde entier. »

Accès sécurisé grâce à la pseudonymisation

Partager des informations sur un demi-million de participants ayant des dossiers médicaux liés est un défi du point de vue de la confidentialité des données. Pour protéger ces données, tout en préservant la valeur des nombreux points de données biomédicales interconnectés, DNAnexus a développé un système de pseudonymisation.

« Cela nous permet de conserver une copie des données en arrière-plan, ce qui entraîne d'importantes économies », ajoute Asha Collins. « Ces données sont pseudonymisées de manière appropriée et “copiées” dans une zone virtuelle où les chercheurs peuvent voir exactement les fichiers et les champs tabulaires pour lesquels ils ont été approuvés, avec les modifications appropriées des noms de fichiers. »

UK Biobank s'appuie sur des mesures de sécurité renforcées, qui nécessitent que chaque chercheur reçoive une copie légèrement différente des données. Les identifiants des participants sont pseudonymisés pour chaque chercheur. Ces identifiants sont intégrés à la fois dans le nom du fichier et dans le contenu lui-même, ce qui permet à DNAnexus de développer son support de pseudonymisation. En s'appuyant sur les « copies électroniques » décrites ci-dessus, ainsi que sur certains mécanismes de téléchargement sécurisés, la plateforme a répondu à ces exigences difficiles pour des milliers de chercheurs sans dupliquer aucune des données.

DNAnexus a développé cette fonctionnalité pour répondre au besoin grandissant de plateformes capables de fournir un accès sécurisé à des jeux de données démographiques multi-omiques, qui ne cessent de croître.

La base de données UK Biobank s'est déjà révélée être une ressource puissante pour la communauté mondiale des chercheurs, alimentant de nouvelles découvertes scientifiques susceptibles d'améliorer la santé publique. La Research Analysis Platform a le potentiel d'accroître la rapidité et l'ampleur des découvertes scientifiques et de démocratiser l'accès, en permettant aux chercheurs agréés d'intégrer leurs propres analyses aux données de n'importe où dans le monde afin de mieux comprendre les maladies humaines. En outre, la RAP résout la complexité associée à l'intégration et à l'harmonisation des données génomiques et cliniques. Elle permet également de faciliter une meilleure collaboration entre les chercheurs en permettant aux utilisateurs d'analyser plusieurs types de données et de travailler sur le même projet de recherche au sein de la plateforme basée sur le cloud. Cette réussite va probablement alimenter une nouvelle croissance, ce qui conforte UK Biobank dans son choix de collaborer avec des partenaires tels que DNAnexus et AWS, connus pour leurs solutions flexibles à capacité de mise à l'échelle.

Biobank

À propos du client

UK Biobank est une base de données biomédicales et une ressource de recherche à grande échelle, contenant des informations détaillées sur la génétique et la santé provenant d'un demi-million de participants britanniques. La base de données est régulièrement complétée par des données supplémentaires et est accessible dans le monde entier aux chercheurs agréés qui entreprennent des recherches vitales sur les maladies les plus courantes et potentiellement mortelles. Elle contribue de manière majeure à l'avancement de la médecine et des traitements modernes, et a déjà permis plusieurs découvertes scientifiques améliorant la santé humaine.

À propos de DNAnexus

DNAnexus a mis en place une plateforme cloud sécurisée et fiable pour accéder, analyser et traduire les données biomédicales du monde entier, alimentant ainsi la communauté scientifique qui génère des avancées révolutionnaires dans les domaines des soins de santé et des sciences de la vie.

Date de publication : mai 2022