help

Cancérologie et IA

QUELQUES DÉFINITIONS…

DONNÉES MASSIVES OU "BIG DATA"

Jeux de données extrêmement larges, pouvant être complexes, multidimensionnels, non structurés, pouvant provenir de sources hétérogènes (cliniques, biologiques, sociales ou environnementales) et s’accumuler rapidement.

INTELLIGENCE ARTIFICIELLE (IA)

Capacité d’une machine à « mimer » des fonctions cognitives humaines telles que l’apprentissage ou la résolution de problèmes.

MACHINE LEARNING

Champ de l’IA qui se fonde sur des approches statistiques pour donner aux ordinateurs la capacité d’apprendre à partir de données, c’est-à-dire d’améliorer leurs performances sans être explicitement programmés pour chacune.

Historique

1941 Oxford Dictionary of English

Premières références à la notion d’« explosion de l’information »

1996 J. Maar - National Academy of Sciences

Notion de « massive data set » (jeux de données massives)

1997 – "Big Data " 

Article de la bibliothèque numérique de l’Association for Computing Machinery, faisant référence au challenge technique que représente l’analyse de grands ensembles de données.

Dictionnaires français « mégadonnées »

Données structurées ou non, dont le très grand volume requiert des outils d’analyse adaptés »

L'intelligence artificielle, l'oncologie de demain

L’intelligence artificielle (IA) en oncologie est un grand espoir de part sa faculté à compiler une importante quantité de données et à émettre des hypothèses diagnostiques et thérapeutiques pertinentes permettant l'essor de la médecine personnalisée.
L’IA est l'ensemble des théories et techniques mises en œuvre pour réaliser des machines capables de simuler l’intelligence. En cancérologie, ses applications se déclinent dans de nombreux domaines : épidémiologie, dépistage, traitements, suivi des patients.
Les principales applications aujourd'hui

  • Prédire le risque et la survie
  • Automatiser les traitements de radiothérapie
  • Améliorer le suivi des patients

Les 5 V du Big Data

Gros Volumes et grande Vitesse de traitement des données

Ceci est rendu possible avec d'une part la chute des coûts de stockage et d'autre l'augmentation spectaculaire des capacités de calcul. 

Variété des données

Elle permet aux chercheurs En raison 'avoir accès à des données, en instantané de nature différentes, comme des images, des textes, des bases de données ou des objets connectés. Ceci est la conséquence de la digitalisation croissante des supports d’information….

Véracité des données et Valeur des travaux

C'est l'enjeu central pour tout projet d’analyse automatisée des données. Il est dépendant de l'algorithme. Celui-ci est d’autant plus performant que les données sont nombreuses, exactes, et bien adaptées à la question à résoudre par le chercheur. Ces nouvelles technologies permettent aisément de multiplier les sources de données et les croiser.

Volume ⇔ Vitesse  ⇔ Variété  ⇔ Véracité  ⇔ Valeur des données

Les 5 « V » sont insuffisants pour caractériser l’innovation apportée par le Big Data…

"MACHINE LEARNING"

Il s'agit d'outils informatiques dédiés à l'apprentissage automatique qui représente un sous-domaine de l’intelligence artificielle. Ces outils gèrent à la fois les 5 « V »  et les "machines learning". 
Cette association permet de construire des algorithmes capables d’accumuler de la connaissance et de l’intelligence à partir d’expériences sans être "humainement "guidés au cours de leur apprentissage et être non explicitement programmés pour gérer telle ou telle tâche particulière.

"DATA ANALYST"

C'est le responsable de la gestion et de l’analyse des données massives. Ce spécialistes des chiffres, des statistiques et des programmes informatiques traite les données pour en extraire les informations susceptibles de l'aider dans sa prise de décisions.

"DATA SCIENTIST"

C'est un spécialiste qui a une vision transverse et qui prend en charge un type de données spécifiques. Il est responsable de la gestion et de l’analyse des données (big data) et de la récupération et du traitement de millions d’informations et de les traiter et les mettre au service des centres de recherche.

 

« Open Data » & « Open Science »

DE QUOI S'AGIT-IL ?

C'est la mise à disposition des données scientifiques disponibles, via le web. Cette disponibilité systématique des données (libre ou payante) à grande échelle permet un accès et une utilisation non limités aux seules institutions les ayant collectées

OPEN DATA"

Ce sont des données générées et conservées par différents organismes, publiques ou privés, et mises à la disposition des citoyens et des entreprises.

"OPEN SCIENCE"

C'est une large ouverture des "données de recherche" à la communauté scientifique. Son rationnel et son utilité vient du constat de la non reproductibilité de nombreux travaux. Dans ce contexte "l'open science" permet d'une part une transparence accrue, gage de meilleure qualité, et d'autre part de lutter contre la fraude scientifique.

LE FINANCEMENT

Il faut souligner le rôle incitateur des organismes financeurs comme le National Research Council américain (1997), l’OCDE (2007), le NIH américain (2003), la Commission Européenne (2011), le portail français du programme européen (AAP H2020)....

La bio-informatique et l'intelligence artificielle

PÉRIMÈTRE

Ensemble de méthodes, de logiciels et d’applications en ligne qui permettent de gérer, manipuler, et analyser des données biologiques mettent en jeu plusieurs champs disciplinaires.
La bio-informatique a pour mission de stocker, d'analyser et de visualiser des données du "big data". Elle a ainsi, par exemple, contribué au séquençage d’un génome

LES BANQUES DE DONNÉES

Globalement
Elles permettent de stocker à des buts de recherche ou d'applications cliniques, comme, par exemple des séquences d'acides nucléiques ou de protéines.

Les banques d’alignements, de motifs et de sites
En bio-informatique, l'alignement de séquences (ou alignement séquentiel) est une manière de représenter deux ou plusieurs séquences d'ADN, d'ARN ou de protéines les unes sous les autres, de manière à en faire ressortir les régions homologues ou similaires.
L'objectif de ce traitement de données est de disposer les composants (nucléotides ou acides aminés) pour identifier les zones de concordance. Ces alignements sont réalisés par des programmes informatiques dont l'objectif est de maximiser le nombre de coïncidences entre nucléotides ou acides aminés dans les différentes séquences.

La recherche dans les banques de données
Elle permet d’analyser l’information et la traiter, comme, par exemple en comparant des séquences d'ADN, d'ARN ou de protéines, de permettre des alignements multiples et d'explorer la phylogénie.

Le doublement des connaissances médicales est, en 2020, de moins de 3 mois !

POURQUOI ?

Les pathologies tumorales sont des "pathologies génétiques" car les cancers se développent à partir de l’accumulation progressive d’anomalies affectant l’ADN des cellules pré-tumorales et tumorales

LA RECHERCHE

Elle passe par le développement de grands programmes internationaux de caractérisation moléculaire des cancers pour contribuer à dresser un catalogue, le plus exhaustif possible, des anomalies génétiques et épigénétiques impliquées dans les différents types de cancers.

LES IMPLICATIONS PRATIQUES

Détecter ce qui  avant passait inaperçu !   
Grâce à des analyses de plus en plus plus rapides et dynamiques, de permettre de mettre en évidences des anomalies qui autrefois seraient passées inaperçues. A partir de ces données, d' évaluer leur capacité prédictive , par exemple.

Faire ce que  l’on ne pouvait pas faire  avant, mais qui n'est pas neutre en terme d'éthique !  
On peut citer, par exemple, la gestion fine des déplacements, le profilage et ciblage des patients. Cela, autorise de travailler sur des recensement  plus que des sondages …
Le « big data » en recherche biomédicale permet ainsi le rapprochement de données diverses issues de domaines différents et complémentaires et de l’utilisation secondaire des données pour alimenter des processus d’apprentissage.

Les Big Data en cancérologie...

 

Cancer Genome Atlas (TCGA) International Cancer Genome Consortium (ICGC)
  • Collaboration entre le National Cancer Institute (NCI) et le National Human Genome Research Institute (NHGRI)
  • 30 types de cancers
  • 15 000 patients
  • Volume total de données 2,5 Pétaoctets !!
  • Une vingtaine de pays (dont les US)
  • Inclus une partie des données du TCGA
  • 20 types de cancers
  • 15 000 patients
  • La France participe pour 8 pathologies : sein HER2+, foie, prostate, sarcome d’Ewing, rétinoblastome, carcinosarcomes gynécologiques, léïomyosarcome





 

Big Data et recherche clinique en cancérologie

Initialement restreints aux programmes de recherche, les progrès technologiques et la diminution des coûts du séquençage ont permis d’envisager la production de volumes importants de données en milieu clinique.

C'est la promesse d’une médecine personnalisée basée sur une analyse des caractéristiques de la tumeur de chaque patient et de la constitution génétique du patient lui-même.

Les séquenceurs utilisés dans le domaine de la cancérologie permettent de génèrent des lectures courtes (100 pb environ) et offrent une bonne sensibilité de détection des mutations.
De nouvelles technologies comme celles proposées par Oxford Nanopore Technologies (MinION) produisent à faible coût également des lectures de plusieurs dizaines de kilobases
Même si elles souffrent encore d’un taux d’erreurs pour les substitutions et les indels*, elles semblent adaptées pour la recherche de grands réarrangements comme, par exemple, les fusions géniques.

 

 

Indel terme utilisé en génétique et en bio-informatique pour désigner une insertion ou une délétion dans une séquence biologique (acide nucléique ou protéine) par rapport à une séquence de référence.

 

Actuellement ce que permet le  Big Data et demain l'intelligence artificielle…

  • Aide à la décision et au diagnostic pour permettre une action thérapeutique guidée
  • Une anesthésie assistée et une chirurgie guidée
  • La télémédecine
  • Les robots de soin
  • L'assistance à la vie autonome

Mise à jour

2024