Sélection d'algorithmes pour les protéines

Nouvelles

MaisonMaison / Nouvelles / Sélection d'algorithmes pour les protéines

Aug 28, 2023

Sélection d'algorithmes pour les protéines

Rapports scientifiques volume 13,

Rapports scientifiques volume 13, Numéro d'article : 8219 (2023) Citer cet article

381 accès

1 Altmétrique

Détails des métriques

La présente étude examine l'utilisation de la sélection d'algorithmes pour choisir automatiquement un algorithme pour toute tâche d'amarrage protéine-ligand donnée. Dans le processus de découverte et de conception de médicaments, la conceptualisation de la liaison protéine-ligand est un problème majeur. Cibler ce problème par des méthodes informatiques est bénéfique afin de réduire considérablement les besoins en ressources et en temps pour le processus global de développement de médicaments. Une façon d'aborder l'amarrage protéine-ligand est de le modéliser comme un problème de recherche et d'optimisation. Il existe une variété de solutions algorithmiques à cet égard. Cependant, il n'existe pas d'algorithme ultime capable de résoudre efficacement ce problème, à la fois en termes de qualité et de vitesse d'amarrage protéine-ligand. Cet argument motive la conception de nouveaux algorithmes, adaptés aux scénarios particuliers d'amarrage protéine-ligand. À cette fin, cet article présente une approche basée sur l'apprentissage automatique pour des performances d'amarrage améliorées et robustes. La configuration proposée est entièrement automatisée, fonctionnant sans avis d'expert ni implication à la fois sur les aspects du problème et de l'algorithme. Comme étude de cas, une analyse empirique a été effectuée sur une protéine bien connue, l'enzyme de conversion de l'angiotensine humaine (ACE), avec 1428 ligands. Pour une applicabilité générale, AutoDock 4.2 a été utilisé comme plate-forme d'accueil. Les algorithmes candidats sont également tirés d'AutoDock 4.2. Vingt-huit algorithmes lamarckiens-génétiques (LGA) distinctement configurés sont choisis pour construire un ensemble d'algorithmes. ALORS, qui est un système de sélection d'algorithmes basé sur un système de recommandation, a été préféré pour automatiser la sélection de ces variantes LGA sur une base par instance. Pour réaliser cette automatisation de sélection, des descripteurs moléculaires et des empreintes digitales de sous-structure ont été utilisés comme caractéristiques caractérisant chaque instance d'amarrage protéine-ligand cible. Les résultats de calcul ont révélé que la sélection d'algorithmes surpasse tous ces algorithmes candidats. Une évaluation plus approfondie est rapportée sur l'espace des algorithmes, discutant des contributions des paramètres de LGA. En ce qui concerne l'amarrage protéine-ligand, les contributions des caractéristiques susmentionnées sont examinées, ce qui met en lumière les caractéristiques critiques affectant les performances d'amarrage.

Dans le sillage des maladies émergentes et de la prise de conscience croissante du désir d'améliorer le bien-être humain, il y a eu un effort persistant pour mettre en œuvre de nouvelles innovations médicales. Un large éventail de concepts dans Drug Discovery/Design (DD)1 a été les principaux sujets d'intérêt. Le processus de DD, cependant, prend du temps et coûte cher. L'ensemble du pipeline DD peut durer jusqu'à 15 ans, nécessitant des budgets élevés et la participation de grands groupes de scientifiques. À cet égard, le processus DD traditionnel s'accompagne souvent d'un coût et d'un risque élevés et d'un faible taux de réussite, des facteurs qui découragent les nouvelles recherches et entravent les progrès substantiels dans ce domaine2. Un facteur majeur qui contribue à ce fait est que la DD est essentiellement un problème de recherche de l'énorme espace chimique pour détecter les composés médicamenteux3,4. L'étape la plus critique de ce processus ardu est sans doute l'identification des nouveaux composés chimiques qui pourraient être développés dans de nouveaux médicaments.

Les approches informatiques ont été pratiques, en général, car ce sont des mécanismes efficaces pour faire avancer le processus de DD à un rythme accéléré, avec de meilleurs résultats. Computer-Aided DD (CADD)5,6,7,8,9,10 est un terme générique couvrant ces procédures de calcul. Pour être précis, CADD est une collection d'outils mathématiques et basés sur les données qui recoupent les disciplines en ce qui concerne leur utilisation dans DD. Ces outils sont mis en œuvre sous forme de programmes informatiques et sont adaptés en conjonction avec diverses méthodologies expérimentales pour accélérer la découverte de nouvelles entités chimiques. Les stratégies CADD peuvent trier rapidement un très grand nombre de composés, en identifiant les hits qui peuvent être convertis en pistes. Les méthodes de laboratoire prennent alors le relais pour tester et finaliser le médicament. Ce processus est itératif et réciproque. Les résultats des méthodes CADD sont exploités pour concevoir des composés qui sont soumis à une synthèse chimique et à un essai biologique. Les informations dérivées de ces expériences sont exploitées pour développer davantage les relations structure-activité (SAR) et les SAR quantitatifs (QSAR) qui sont intégrés dans les approches CADD.

Parmi les méthodes CADD, l'amarrage moléculaire a été particulièrement populaire. L'amarrage moléculaire est le processus par lequel une petite molécule, généralement appelée ligand, interagit par ordinateur avec une protéine ou d'autres biomolécules sans aucun travail de laboratoire. De manière procédurale, il fait varier la conformation et l'orientation du ligand par étapes limitées et stochastiques. Son objectif est de rechercher la meilleure conformation d'amarrage, ou pose, qui minimise l'énergie de liaison. Les résultats renvoyés par les programmes d'amarrage moléculaire sont généralement la valeur d'énergie de liaison et un fichier de complexe protéine-ligand qui indiquent l'affinité et la position de liaison réelles lorsque le ligand est co-cristallisé avec le récepteur. L'amarrage moléculaire a bénéficié de différentes procédures CADD, y compris le criblage virtuel, un processus qui interroge la liaison d'un grand nombre de molécules à une cible de maladie (biologique) particulière.

Cette étude visait à appliquer la sélection d'algorithmes (AS)11,12 pour suggérer automatiquement des algorithmes qui résolvent le mieux le problème d'amarrage protéine-ligand (PLDP). L'idée d'AS est motivée par le théorème No Free Lunch (NFLT)13. Le NFLT stipule essentiellement que chaque algorithme effectue la même chose en moyenne lorsqu'il est appliqué à toutes les instances de problème possibles. Ainsi, chaque algorithme a ses propres forces et faiblesses, aussi complexes et avancées soient-elles. AS tente essentiellement de choisir l'algorithme le plus approprié à partir d'un pool d'algorithmes existant pour résoudre une instance de problème donnée de n'importe quel domaine. L'objectif de ce travail était d'identifier l'algorithme le plus approprié à partir d'un pool fixe d'algorithmes PLDP pour chaque instance PLDP donnée. AutoDock414 a été préféré car il s'agit d'un outil PLDP largement utilisé, fournissant un pool d'algorithmes favorable. Un solveur AutoDock existant, Lamarckian GA (LGA)15, qui intègre l'algorithme génétique (GA)7 et la recherche locale (LS)16, a été utilisé de manière paramétrée de sorte qu'une suite d'algorithmes candidats a été dérivée. Cette étape a abouti à 28 variantes LGA, y compris la LGA avec ses valeurs de paramètres par défaut. Ils ont été utilisés sur 1428 instances de PLDP, chacune concernant un ligand sur 1428 ligands et une seule protéine cible de l'enzyme de conversion de l'angiotensine humaine (ACE). Ces 28 algorithmes sont gérés par ALORS17, qui est une approche AS basée sur les systèmes de recommandation. Pour pouvoir utiliser AS, un ensemble de fonctionnalités est dérivé pour représenter les instances PLDP, y compris les descripteurs moléculaires largement adoptés ainsi que les empreintes de sous-structure. Suite à cette configuration, une analyse expérimentale approfondie est rapportée, comparant initialement chaque variante LGA autonome à ALORS. En ce qui concerne les capacités d'analyse d'ALORS, la ressemblance des algorithmes candidats - en termes de valeurs de paramètre LGA dans ce cas - et les similitudes d'instance PLDP en plus de l'importance des paramètres LGA et des fonctionnalités d'instance PLDP sont étudiées. L'évaluation qui en résulte fournit des informations pratiques sur la façon d'utiliser LGA avec des performances accrues et ce qu'il faut prendre en compte lors de la résolution d'un scénario PLDP particulier. La méthode AS utilisée pour le choix des algorithmes est détaillée dans la section "Résultats et discussion". Une analyse informatique complète et une discussion sont fournies dans la section "Conclusion".

L'amarrage protéine-ligand joue un rôle crucial dans la recherche pharmaceutique moderne et le développement de médicaments. Les algorithmes d'amarrage estiment la structure du complexe ligand-récepteur par échantillonnage et classement. Ils échantillonnent d'abord la conformation des ligands dans le site actif d'un récepteur. Ensuite, ils classent toutes les poses générées sur la base de fonctions de notation spécifiques ou simplement en calculant l'énergie de liaison18. Les algorithmes de docking sont ainsi capables de simuler la meilleure orientation d'un ligand lorsqu'il est lié à un récepteur protéique.

La technique d'amarrage initiale est basée sur l'hypothèse de verrouillage et de clé de Fischer19. Cette hypothèse traite à la fois le ligand et le récepteur comme des corps rigides avec leur affinité proportionnelle à leurs formes géométriques. Dans la plupart des systèmes à corps rigide élémentaires, le ligand est recherché dans un espace de rotation ou de translation à six dimensions pour s'adapter au site de liaison. Plus tard, Koshland a proposé la théorie de l'ajustement induit20, qui implique que les interactions des ligands modifieraient continuellement le site actif d'un récepteur. Essentiellement, la procédure d'amarrage est considérée comme dynamique et adoptable. Au cours des dernières décennies, de nombreuses technologies et outils d'amarrage ont été développés, tels que DOCK21, AutoDock22, GOLD23 et Glide24. Outre les différences dans la mise en œuvre de l'investigation de pose 3D, la modélisation des récepteurs protéiques, etc., la principale variation entre elles est l'évaluation de l'affinité de liaison, effectuée par différentes fonctions de notation (SF)25. Les fonctions de notation existantes peuvent être classées comme (1) basées sur le champ de force, (2) basées sur la fonction empirique et (3) basées sur la connaissance26. En raison de l'hétérogénéité de la façon dont l'interaction protéine-ligand est modélisée dans différentes fonctions de notation, il est probable que des performances diverses puissent être observées si une fonction de notation est appliquée à toutes les tâches d'amarrage.

Cette étude a utilisé AutoDock4 car il s'agit d'un système open source largement utilisé. C'est le premier logiciel d'amarrage capable de modéliser des ligands avec une flexibilité totale27. AutoDock4 se compose de deux composants logiciels fondamentaux : AutoDock et AutoGrid. Alors qu'AutoDock est le logiciel principal, AutoGrid calcule l'énergie non covalente des interactions et produit une carte de grille de potentiel électrostatique28. En tant que fonctionnalité d'AutoDock427, il est possible de modéliser la flexibilité du récepteur en déplaçant les chaînes latérales. Pour gérer la flexibilité de la chaîne latérale, une méthode d'échantillonnage simultané est fournie. Alors que les autres chaînes restent rigides, les chaînes sélectionnées par l'utilisateur sont échantillonnées par une certaine méthode avec le ligand. Avec AutoGrid, la partie rigide est traitée comme une carte d'énergie de grille. Les cartes de grille ainsi que la partie flexible du récepteur dirigent le processus d'amarrage des ligands sélectionnés28.

AutoDock4 adopte la fonction de notation de champ de force basée sur la physique avec des potentiels de liaison hydrogène de van der Waals, électrostatiques et directionnels dérivés d'une première version du champ de force AMBER29. De plus, un terme de désolvatation additif par paires basé sur des charges partielles et une simple pénalité d'entropie conformationnelle sont inclus26. La fonction de notation se compose de termes électrostatiques et de Lennard – Jones VDW :

où \(A_{ij}\) et \(B_{ij}\) sont les paramètres VDW, \(r_{ij}\) fait référence à la distance entre l'atome de protéine \(i \) et l'atome de ligand \( j \), et \(q_{i}\) et \(q_{j}\) sont des charges atomiques. \(\varepsilon \left( {r_{ij} } \right)\) est introduit comme simple constante diélectrique dépendant de la distance dans le terme coulombien. Cependant, l'effet de désolvatation ne peut pas être représenté dans le terme coulombien26. L'effet de solvant ignoré conduira à une fonction de notation biaisée qui ne tiendra pas compte de ces ligands relativement peu chargés.

Une fonction de notation basée sur les connaissances25 est en outre établie sur la base de la mécanique statistique des paires d'atomes en interaction. Un terme de désolvatation additif par paires est introduit, qui est directement obtenu à partir de la fréquence d'occurrence des paires d'atomes par la relation de Boltzmann. Les potentiels énergétiques dérivés des informations structurelles sont également inclus dans la détermination des structures atomiques26. Les potentiels sont calculés par

où \(\kappa_{B}\) est la constante de Boltzmann, \(T \) est la température absolue du système, \(\rho \left( r \right)\) est la densité numérique de la protéine-ligand paire d'atomes à distance \(r \), et \(\rho *\left( r \right)\) est la densité de paires lorsque les interactions interatomiques sont nulles. L'inverse de Boltzmann représente les potentiels de force moyenne, et non les vrais potentiels, qui sont assez différents du système fluide simple26. Ainsi, bien qu'il exclut les effets de volume, de composition, etc., il aide toujours à convertir les distances atome-atome en une fonction adaptée aux systèmes protéiques complexes.

La plupart des utilisateurs d'AutoDock4, ainsi que les utilisateurs d'autres plates-formes d'ancrage moléculaire, ont tendance à suivre le protocole d'ancrage recommandé avec les valeurs par défaut données. Cette pratique est principalement suivie pour éviter de peaufiner le programme d'amarrage. De plus, certains programmes d'ancrage, y compris AutoDock4, ne fournissent qu'un ensemble limité d'options pour exécuter la recherche avec une fonction de notation particulière, mais il reste encore beaucoup d'autres combinaisons. Dans le cas d'AutoDock4, le choix d'algorithme recommandé est l'algorithme génétique lamarckien (LGA). Cela étant dit, il est possible de montrer des scénarios d'amarrage où LGA fonctionne relativement mal.

La sélection d'algorithmes appropriés pour la résolution de problèmes dans une variété de contextes a attiré une attention croissante au cours des dernières décennies30. Un phénomène connu sous le nom de complémentarité des performances soutient, sur la base de recherches empiriques, qu'un algorithme peut bien fonctionner dans un contexte tandis que d'autres fonctionnent mieux dans d'autres conditions12.

Le concept de sélection d'algorithmes par instance a été proposé et examiné11. Cette idée se réfère à trouver quel algorithme est le meilleur pour une instance donnée12. La justification de l'examen approfondi de cet algorithme est la sélection d'un algorithme approprié parmi un grand nombre d'algorithmes existants divers. Cependant, il a fallu des décennies pour qu'il se généralise avant d'être appliqué pour résoudre la satisfaisabilité booléenne (SAT) et d'autres problèmes combinatoires difficiles31. Dans la procédure désignée, une règle est développée entre un algorithme approprié et un certain scénario. Dans les problèmes d'optimisation, la sélection d'algorithmes par instance est donc devenue prépondérante.

Comme l'application des méthodes d'apprentissage automatique s'est avérée compétente dans de nombreuses tâches, une méthode de connexion automatique des règles a été étudiée12. Des instructions détaillées et perspicaces32 ont été fournies sur le premier processus de sélection d'algorithme automatique et il a abordé un certain nombre de questions importantes, y compris la sélection de la régression ou de la classification et la distinction entre caractéristique dynamique et statique. Cependant, les problèmes continus ont été omis. De plus, une généralisation au problème d'optimisation continue33 a été proposée en mettant en évidence les avantages des problèmes discrets.

Le composant principal de l'approche proposée est le module de sélection d'algorithme (AS) tel que visualisé sur la figure 1. Il est chargé de choisir un algorithme par instance et de faire correspondre un algorithme approprié pour adresser une instance (PLDP) donnée. De plus, en se référant à la description AS précédente, initialement un groupe d'algorithmes PLDP, A, devrait être fourni. Bien que ces algorithmes puissent être déterminés et utilisés de manière fixe, des stratégies de génération de portefeuille d'algorithmes34,35,36 peuvent être incorporées pour dériver des algorithmes candidats. A côté d'un ensemble d'algorithmes, un ensemble d'instances \(I\) doit être adapté pour modéliser le système AS. Bien que AS soit une stratégie indépendante du problème, le comportement de AS est fortement affecté par le choix de ces instances. Si l'AS est prévu pour être utilisé pour réaliser une famille plutôt spécifique de tâches d'amarrage, \(\mathcal{I}\) peut inclure les instances de cette famille particulière. Sinon, pour avoir un modèle AS généralisé, il est avantageux que \(I\) contienne un large éventail d'instances PLDP diverses. Dans l'étude actuelle, il n'y a qu'une seule protéine cible, mais un ensemble assez large de ligands. Ainsi, tout modèle AS construit ici est spécifique à cette protéine cible tout en ayant un certain niveau de généralité concernant les ligands. En ce qui concerne cet aspect de diversité, avoir une grande diversité grâce à la complémentarité dans \(\mathcal{A}\) peut potentiellement offrir des modèles AS améliorés et robustes. La complémentarité, ici, désigne le fait d'avoir des algorithmes avec des capacités de résolution de problèmes variables. Alors qu'un algorithme fonctionne bien sur un certain type d'instance, un autre algorithme peut bien fonctionner sur des instances où les algorithmes précédents fonctionnent mal. Les \(A\) et \(I\) choisis sont ensuite utilisés pour générer des données de performances, \(P(A, I)\), indiquant les performances de chaque algorithme candidat, \(a\), sur chaque instance de problème , \(P(a, je) = {p}_{ai}\). Lors de cette étape de génération des données de performance, il est primordial de prendre en compte le caractère stochastique/non déterministe des algorithmes candidats. Cela signifie que si un algorithme peut fournir une solution différente après chaque exécution sur exactement la même instance de problème, il sera trompeur d'exécuter cet algorithme une seule fois et d'utiliser cette valeur dans \(P\). Dans de tels cas, il est raisonnable d'exécuter ces algorithmes plusieurs fois et d'utiliser leurs valeurs moyennes ou médianes comme indicateurs de performance par instance. Un dernier élément requis pour construire un modèle AS est de spécifier le nombre de fonctionnalités, \(F\), décrivant de manière adéquate les caractéristiques des instances du problème cible. Avec la manipulation de données ou les conversions de format de données, cette étape peut être ignorée car les caractéristiques sont automatiquement dérivées37. Sinon, avec l'aide des experts en chimie, des caractéristiques d'instance raisonnablement représentatives peuvent être collectées. Pourtant, il est potentiellement possible de proposer de telles caractéristiques en se référant à la littérature pertinente, sans avoir besoin de la présence effective d'experts. Cela dit, en fonction du problème cible, il peut être suffisant d'utiliser uniquement des mesures statistiques de base et des valeurs obtenues via le repère38. À ce stade, traditionnellement, un modèle AS peut être construit, sous la forme d'une prédiction de performance, \(\Theta :F\left(I\right)\to P\left(A,I\right)\), ou autre les stratégies AS existantes peuvent être employées.

Illustration de la sélection d'algorithmes. Le processus traditionnel de sélection d'algorithmes (AS) par instance.

Suivant le cadre donné, la Fig. 2 visualise le réglage AS effectué dans cet article. L'étape de génération de données est réalisée sur la base d'AutoDock 4.2. Pour la méthode AS, une technique existante, ALORS117, est recrutée. ALORS est un système de recommandation d'algorithmes, basé sur le filtrage collaboratif (CF)39. Il a été appliqué avec succès pour différentes décisions de sélection sur différents domaines de problèmes40,41,42,43, y compris ceux sur un problème de prédiction de structure de protéine pertinent44,45. CF est un type d'approche de recommandation, qui prédit à quel point les utilisateurs aiment certains éléments tels que les films et les produits. Il fait des prédictions basées sur la mise en relation d'entrées similaires au niveau de l'utilisateur et de l'élément. Contrairement aux autres méthodes de recommandation, CF fonctionne avec des entrées éparses. ALORS s'adapte à l'idée de CF en considérant les instances de problème comme les utilisateurs tout en considérant les algorithmes comme les éléments ; c'est-à-dire à quel point une instance aime un algorithme, en fonction du succès relatif de l'algorithme par rapport à tous les algorithmes candidats. Semblable aux applications CF, ALORS fonctionne également avec des données basées sur les rangs, les rangs de tous les algorithmes présents sur toutes les instances du problème. À cet égard, ALORS effectue la sélection d'algorithmes (AS) en tant que tâche de prédiction de rang. Cependant, contrairement aux systèmes AS existants, ALORS effectue indirectement des prédictions de rang. Essentiellement, un modèle de prédiction dérivé par ALORS est un modèle fonctionnalité à fonctionnalité, comme détaillé dans l'algorithme 1. Il mappe un ensemble de fonctionnalités triées sur le volet caractérisant les instances de problème cible à un autre groupe de fonctionnalités d'instance. Cette dernière suite de fonctionnalités est celle extraite automatiquement des données de performance de rang par Matrix Factorization (MF). Pour être précis, la décomposition en valeurs singulières (SVD)46 est utilisée comme méthode MF pour la réduction de la dimensionnalité.

Cadre d'ALORS pour l'amarrage protéine-ligand. Tous les ligands sont ancrés avec ACE à l'aide de 28 algorithmes, chacun avec une configuration de paramètre différente dans AutoDock4 pendant la procédure de génération de données. La configuration d'algorithme qui produit les scores d'amarrage les plus faibles en moyenne pour 50 exécutions est sélectionnée comme le meilleur algorithme pour l'instance donnée, comme le 28e paramètre d'algorithme (A28). Le modèle ALORS est formé à l'aide de descripteurs moléculaires et d'empreintes digitales, ainsi que des meilleures étiquettes d'algorithme correspondant à chaque ligand. Notre modèle utilise les caractéristiques d'un seul nouveau ligand pour déterminer la meilleure configuration d'algorithme pour l'inférence.

ALORS est ici appliqué avec k = 5 par rapport au rang de MF par SVD. En ce qui concerne le composant de modélisation de Random Forest (RF)47, le nombre d'arbres est fixé à 100, qui est la valeur par défaut dans Scikit.

L'ensemble d'algorithmes candidats est composé de 28 algorithmes tandis que le nombre de scénarios d'amarrage, les instances, est de 1428. Les algorithmes sont essentiellement spécifiés en définissant des configurations de paramètres distinctes d'un algorithme lamarckien-génétique (LGA), comme détaillé dans le tableau 1. L'évaluation est réalisé par validation croisée décuplée (10-cv).

Les ligands sont des molécules approuvées par la Food and Drug Administration (FDA) américaine 2 dans la base de données ZINC1548. L'enzyme de conversion de l'angiotensine humaine (ACE), une protéine membranaire critique pour le virus SARS-COV, et la fonction rénale et cardiovasculaire, est choisie comme récepteur cible (PDB DOI : 1O86)49. Les fichiers de ligands originaux sont au format MOL2 et sont convertis au format PDB pour être ancrés via Openbabel50. Les récepteurs et les ligands sont prétraités par AutoDock Tools et incluent l'ajout de liaisons hydrogène et de charges sous forme de PDBQT. L'ensemble du processus d'amarrage est effectué via AutoDock 4.2. La graine aléatoire est fixée pour la répétabilité de l'expérience. Chaque algorithme est configuré pour s'exécuter 50 fois pour chaque ligand et le nombre d'évaluations d'énergie est défini sur 2 500 000. Ils sont tous deux fixés pour contrôler les ressources de calcul que chaque algorithme peut utiliser. Le reste des paramètres sont par défaut avec les détails décrits dans le guide de l'utilisateur d'AutoDock4. Pour l'extraction de caractéristiques, RDKit51 est utilisé pour générer des descripteurs moléculaires, et les empreintes digitales de la sous-structure PubChem sont calculées par PaDEL-Descriptor52. Les descripteurs moléculaires sont les valeurs numériques des propriétés d'une molécule calculées par des algorithmes51. Après la suppression des descripteurs avec la valeur 0 sur tous les ligands, 208 caractéristiques sont obtenues. Après cette étape, les caractéristiques avec presque les mêmes valeurs sur différents ligands sont rejetées, ce qui donne 119 caractéristiques utilisables. Toutes les caractéristiques sont déterminées par la normalisation min-max, en ajustant les valeurs de chaque caractéristique à [0, 1]. PubChem Substructure Fingerprint est une liste ordonnée de valeurs binaires (0/1), qui représente l'existence d'une sous-structure spécifique, telle qu'une structure en anneau53. Dans notre cas, pour chaque ligand, la longueur de la liste codée en binaire est de 881.

La figure 3 illustre les rangs de chaque algorithme dans tous les scénarios d'amarrage pour AVG et BEST, respectivement. On peut voir que si certains algorithmes fonctionnent mieux que d'autres en général, leurs performances relatives varient. Au-delà de cela, il n'y a pas d'algorithme ultime qui surpasse systématiquement les algorithmes restants sur toutes les instances d'amarrage protéine-ligand. Ce point de vue suggère que la sélection d'algorithmes est susceptible de battre tous ces algorithmes en faisant correspondre automatiquement les bons algorithmes avec les instances qui peuvent être efficacement résolues par les algorithmes sélectionnés.

Rangs des algorithmes d'amarrage. (A) Les rangs des algorithmes d'amarrage sur toutes les instances, en fonction des performances d'AVG. (B) Les rangs des algorithmes d'amarrage dans toutes les instances, en fonction des meilleures performances.

Le tableau 2 rapporte le classement de chaque algorithme autonome en plus d'ALORS. Tous ces algorithmes sont pris en compte comme algorithmes candidats pour ALORS. Deux évaluations de performance distinctes sont fournies. La première se concentre sur les performances moyennes des algorithmes, considérant que tous les algorithmes utilisés sont stochastiques. Le deuxième cas concerne les meilleures solutions d'amarrage parmi toutes les exécutions sur chaque instance d'amarrage. Pour les deux scénarios, ALORS surpasse tous les algorithmes autonomes, tandis que la différence de performances dans le cas AVG est plus drastique que dans le cas BEST.

Dans l'ensemble, ALORS offre systématiquement les performances les meilleures et les plus robustes sur toutes les instances d'amarrage. L'aspect robustesse peut être vérifié à partir des valeurs d'écart type. En examinant de plus près les résultats et en se référant aux performances d'AVG, A6 se trouve être le meilleur algorithme autonome, ce qui signifie qu'il est traditionnellement utilisé comme seul algorithme pour toutes les instances d'amarrage, contrairement à AS, en choisissant un algorithme d'amarrage pour chaque instance d'amarrage. . Alors que le rang moyen de A6 est de 7,90, ALORS donne un rang moyen de 6,00. A6 est suivi de A7, avec un rang moyen de 7,91. De plus, le paramètre d'algorithme par défaut intégré à AutoDock, A2, s'avère être la troisième meilleure approche autonome sur les scénarios de test actuels. En ce qui concerne la fourniture des MEILLEURS résultats d'amarrage, contrairement au cas AVG, A8 offre le meilleur classement moyen de 6,80, parmi les algorithmes constitutifs, après le classement moyen d'ALORS de 6,75. A1 offre une performance assez proche de A8, avec un rang moyen de 6,82. L'interprète le plus proche après A1 est A9 avec un classement moyen de 7,09. La configuration par défaut de A2 occupe la cinquième place parmi ces méthodes autonomes.

La figure 4 visualise les changements de classement moyens pour AVG et BEST, en se référant au graphique du haut. Il est à noter que la tendance relative des performances parmi tous les algorithmes est quelque peu maintenue. Les graphiques restants montrent les méthodes d'amarrage triées sur AVG et BEST, séparément. Juste en analysant visuellement les graphiques, des méthodes étroitement classées, en groupes, peuvent être détectées. Par exemple, A5, A19, A20, A25, A26 et A27 offrent clairement les pires performances parmi tous les algorithmes.

Rangs moyens des algorithmes d'amarrage. Les rangs moyens de toutes les méthodes d'amarrage testées. (A) comparaison relative sur AVG et BEST, (B) comparaison triée sur AVG, (C) comparaison triée sur BEST.

La figure 5 illustre les similitudes entre tous les algorithmes constitutifs en termes de clustering hiérarchique.

Clustering des algorithmes d'amarrage. Un regroupement hiérarchique des algorithmes d'amarrage constitutifs basé sur les caractéristiques latentes extraites par SVD (k = 5) sur le cas AVG.

Au niveau le plus bas des clusters, les groupes d'algorithmes suivants se trouvent être très similaires : {A8, A9}, {A10, A21}, {A2, A7}, {A11, A12}, {A5, A19}, { A26, A27}, {A22, A23}, {A14, A17}, {A15, A16}. En se référant au tableau ~ \ref{algorithm-configurations}, à l'exception de la paire {A14, A17}, tous les algorithmes groupés ont la même configuration en référence à la taille de leur population et à leurs taux de mutation. La troisième variation utilisée pour utiliser une configuration différente au niveau de l'algorithme, la taille de la fenêtre, ne provoque pas de changements drastiques sur le comportement de ces algorithmes.

Concernant cet aspect de la similarité des algorithmes, en ne gardant qu'un algorithme parmi les similaires, un sous-portefeuille potentiel offrant des performances comparables serait {A1, A2, A3, A4, A5, A6, A8, A10, A11, A13, A14, A15 , A18, A20, A22, A24, A25, A26, A28}, impliquant 19 algorithmes sur 28 options. Le portefeuille peut être encore réduit en se référant à de grands clusters d'algorithmes en allant un niveau plus haut sur le cluster hiérarchique. Ensuite, un exemple de portefeuille serait {A1, A3, A6, A13, A14, A18, A20, A24, A28}.

La figure 6A illustre l'importance des fonctionnalités d'instance PLDP. L'aspect d'importance est déterminé par les valeurs d'importance de Gini explorées lors de la construction des modèles de prédiction de forêt aléatoire (RF) sous ALORS. Parmi ces 119 caractéristiques, 4 d'entre elles obtiennent l'importance de Gini beaucoup plus élevée, devenant ainsi la plus critique par rapport aux autres. Les fonctionnalités correspondantes sont.

NumRotatableBonds

BalabanJ

Kappa1

Kappa2

Gini Importance des fonctionnalités. Les bleus sont nettement plus critiques que les autres concernant leurs valeurs de Gini. (A) Les valeurs d'importance Gini de toutes les caractéristiques de l'instance d'amarrage, (B) Les valeurs d'importance Gini des caractéristiques \(F_{md,top9}\), (C) Les valeurs d'importance Gini des caractéristiques \(F_{md, top4 + sf,top54}\) entités, (D) Les valeurs d'importance de Gini des entités \(F_{md,top9 + sf,top54}\), (E) Les valeurs d'importance de Gini des entités \(F_{sf, top54}\) fonctionnalités.

En plus des descripteurs moléculaires tels que les caractéristiques, \(F_{md}\), les empreintes digitales de la sous-structure, \(F_{sf}\), sont utilisées pour effectuer l'AS. Les empreintes digitales sont des formes binaires de caractéristiques, chacune représentant la présence d'une sous-structure hautement spécifique. À cet égard, il est relativement difficile de tirer parti des caractéristiques individuelles comme dans le cas des descripteurs moléculaires. Le tableau 3 rapporte les performances de l'ALORS avec différents ensembles de fonctionnalités. Les résultats indiquent que \(F_{md}\) est plus informatif que \(F_{sf}\) comme prévu. En se concentrant sur \(F_{md}\), deux sous-ensembles sont également évalués, qui sont \(F_{md,top4}\) et \(F_{md,top9}\). Ce sont essentiellement les principales caractéristiques mesurées par leur Valeurs de Gini extraites du modèle ALORS original. Comme mentionné ci-dessus, \(F_{md,top4}\) désigne les principales caractéristiques significativement influentes, tandis que \(F_{md,top9}\) a 5 caractéristiques supplémentaires en plus de celles de \(F_{md,top4}\) Ils sont choisis en considérant que la valeur d'importance de Gini est coupée de 0,15. Les deux sous-ensembles sont suffisamment bons pour surpasser les algorithmes autonomes plutôt que d'utiliser les 119 fonctionnalités complètes. Cependant, le plus grand sous-ensemble \(F_{md,top9}\) fournit de meilleurs résultats que \(F_{md,top4}\). La figure 6B visualise les contributions de chaque caractéristique de \(F_{md,top9}\) lorsqu'un modèle AS est construit avec \(F_{md,top9}\). Une approche similaire est suivie pour \(F_{sf}\), résultant en un sous-ensemble de 54 caractéristiques, \(F_{sf,top54}\). Par rapport à cela, la figure 6E illustre l'importance de chacune de ces caractéristiques. L'utilisation de 54 fonctionnalités sur 881 a permis d'améliorer encore les performances. Considérant que l'ensemble complet de fonctionnalités d'empreintes digitales est plutôt volumineux, un modèle ALORS supplémentaire est construit en utilisant un nombre plus élevé de tresses pour RF, passant de 100 à 500. Bien que des performances supérieures avec le rang moyen de 6,39 5,62 soient obtenues par rapport au paramètre ALORS par défaut , les performances sont encore pires que le scénario utilisant \(F_{sf}\),top54. L'évaluation finale des caractéristiques est effectuée en utilisant à la fois \(F_{md}\) et \(F_{sf}\), en particulier leurs sous-ensembles susmentionnés, \(F_{md,top4 + sf,top54}\) et \(F_{md,top9 + sf,top54}\). Ces combinaisons ont amélioré à la fois les résultats basés sur les sous-ensembles de fonctionnalités \(F_{md}\) et \(F_{sf}\). Ce résultat suggère que les empreintes digitales de la sous-structure sont accompagnées d'informations supplémentaires qui ne proviennent pas directement des descripteurs moléculaires. L'importance des caractéristiques correspondantes est fournie sur les figures 6C et D pour \(F_{md,top4 + sf,top54}\) et \(F_{md,top9 + sf,top54}\) respectivement.

Compte tenu de l'importance de Gini, les 4, 9 et 40 principales caractéristiques sont sélectionnées pour analyser l'espace d'instance. Pour visualiser les instances dans l'espace bidimensionnel, l'analyse en composantes principales (ACP) et l'incorporation de voisins stochastiques à distribution t (t-SNE) sont appliquées pour réduire ces caractéristiques en 2 dimensions. Les représentations d'instance obtenues par PCA et t-SNE sont illustrées sur la figure 7A. Par rapport aux composants PCA, t-SNE fournit des clusters d'instances plus séparés. Par observation et analyse, la sélection des 9 caractéristiques s'avère la plus discriminante. Ainsi, l'algorithme k-means54 est appliqué pour regrouper les instances utilisant ces 9 caractéristiques. Après avoir essayé différentes valeurs de k ∈ [2, 15], le meilleur k est déterminé comme 2 par rapport au score de silhouette qui est dérivé comme les coefficients de silhouette moyens55 sur tous les points d'instance.

Caractéristiques Visualisation avec PCA, t-SNE et Kmeans. (A) 4, 9 et 40 caractéristiques de visualisation avec PCA et t-SNE. (B) Dans l'espace 2-D PCA et t-SNE, K signifie les résultats de classification de 9 caractéristiques. (C) Dans l'espace 2-D PCA et t-SNE, K signifie les résultats de classification de 5 caractéristiques latentes, extraites par SVD, pour un ensemble de caractéristiques différent.

Les résultats finaux du regroupement sont présentés sur la figure 7B. Comme le score l'indique, il est préférable de diviser les 9 principales caractéristiques en deux groupes. On observe qu'il existe une nette division au milieu des données. Bien que nous puissions trouver une répartition plus diversifiée des points dans t-SNE, la division est relativement indistincte. Dans PCA, où des groupes distincts sont regroupés plus étroitement, le regroupement est plus clair pour l'autre ensemble de fonctionnalités s'il est divisé en deux groupes. De plus, dans t-SNE, la partie dans le coin supérieur gauche de -10 à 40 PC2 est plus concentrée, tandis que l'autre partie est dispersée et clairsemée. La figure 7C reflète une situation frappante du deuxième ensemble de caractéristiques où cinq caractéristiques latentes sont utilisées. La quantité de données dans ces deux clusters est distribuée de manière hétérogène, un groupe étant largement supérieur à l'autre. Par conséquent, le modèle d'un groupe particulier peut être capturé.

Il convient de noter que le score de silhouette ne peut pas indiquer la situation lorsque les points sont uniquement considérés comme un groupe entier. Bien que nous n'ayons aucune idée de la performance d'un groupe en utilisant l'évaluation du score, nous pouvons toujours observer que les points sont en fait répartis de manière égale dans PCA ou t-SNE. Cela signifie qu'il est préférable de les considérer comme un groupe. C'est-à-dire qu'il n'y a pas de division claire évidente ou de modèle groupé lors de l'examen de ces caractéristiques. Comme le montre la figure 8, le groupe 0 en tant que type 0, désigné par la couleur verte, est regroupé plus étroitement en général. Le groupe 0 montre une médiane plus élevée sauf pour BalabanJ. Bien que la plupart des données du groupe 0 soient regroupées, il y a plus de valeurs aberrantes par rapport au groupe 1. De manière frappante, kappa3 montre un schéma étrange où les données sont extrêmement rassemblées avec plusieurs valeurs aberrantes deux à trois fois plus grandes que la plupart des données.

Boîte à moustaches des fonctionnalités. Le type 0 désigne le même groupe 0 lors de la conduite de l'ACP et du t-SNE et le type 1 désigne le groupe 1. Les distributions de 9 caractéristiques sélectionnées dans les deux groupes sont données pour démontrer les modèles possibles pour chaque groupe. Le groupe 0 montre un groupe groupé avec plus de valeurs aberrantes par rapport au groupe 1.

Les figures 9A et B montrent la différence de conformation et d'interaction d'une instance ancrée avec l'algorithme par défaut et le meilleur algorithme. Comme plus de liaisons hydrogène sont observées, la pose d'amarrage prédite par la meilleure configuration de paramètre est susceptible de produire une liaison plus stable avec la protéine réceptrice par rapport à la pose prédite par l'algorithme avec la configuration de paramètre par défaut.

Tracé d'interaction du ligand ZINC000000000053 et ACE. (A) sous la configuration des paramètres par défaut, (B) sous la meilleure configuration des paramètres dans AutoDock4.

Comme mentionné ci-dessus, en utilisant les descripteurs chimiques fournis par la bibliothèque python open-source RDKit51, 208 caractéristiques, des descripteurs moléculaires, sont générées pour chacune des molécules impliquées dans le processus d'amarrage. En ce qui concerne leur importance, en commençant par la plus importante, les 9 principales caractéristiques sont (1) le nombre de liaisons rotatives, (2) l'indice J de Balaban, (3.4.5) l'indice de forme moléculaire Kappa comprenant Kappa 1,2, 3, (6) l'estimation quantitative de l'indice de ressemblance médicamenteuse, (7) l'indice d'état électrotopologique, (8) l'indice de complexité moléculaire de Bertz et (9) l'égalisation partielle de l'indice d'électronégativité orbitale. Bien que ces caractéristiques aient été mises en évidence par ALORS, il est également nécessaire d'examiner leurs applications dans les études QSAR pour savoir si elles peuvent être comprises dans le processus d'amarrage.

Le nombre de liaisons rotatives peut refléter la flexibilité d'une molécule56. Des études antérieures suggèrent que ce descripteur moléculaire aide à différencier les médicaments des autres petites molécules car les médicaments ont une flexibilité inférieure57,58. Essentiellement, l'amarrage moléculaire est un processus de recherche des meilleures positions et poses dans un espace d'amarrage contraint. La variation du nombre de liaisons rotatives affecte directement les poses d'amarrage potentielles renvoyées par AutoDock. Ainsi, il est important d'ajuster le nombre de rotations de liaison, lorsque les ligands sont prétraités via AutoDock Tools27.

L'indice J de Balaban est l'un des indices topologiques qui traitent les molécules comme des graphes connectés, qui représentent la structure moléculaire par un nombre numérique unique59. L'indice J améliore le pouvoir discriminant notamment pour les isomères puisqu'il emploie les sommes moyennes des distances à l'intérieur de la molécule. Il est sensible au nombre de liaisons ou à la différence d'atomes. Le calcul de l'indice est informatiquement efficace tout en préservant les informations physiques et structurelles de la molécule60,61.

L'indice de forme moléculaire Kappa est un autre type d'indice topologique qui se concentre sur les informations de forme moléculaire. L'indice de forme moléculaire kappa quantifie la différence entre la conformation la plus complexe et la conformation potentiellement la plus simple62. Les kappa 1, 2 et 3 sont capables de discriminer les isomères qui ne peuvent pas être distingués s'ils sont mesurés par le nombre d'atomes ou de liaisons63. Par conséquent, les indices de forme moléculaire kappa sont des descripteurs fiables pour mesurer la connectivité globale d'une molécule.

QED est l'abréviation d'estimation quantitative de la ressemblance aux médicaments, qui a été proposée pour fournir des conseils pratiques dans la sélection des médicaments comme une alternative raffinée à la règle des cinq de Lipinski64. Le QED est un indice intégré qui comprend 8 propriétés physiques des molécules, dont le coefficient de partage octanol-eau, le nombre de donneurs et d'accepteurs de liaisons hydrogène, la surface polaire moléculaire, le nombre de liaisons rotatives, le nombre de cycles aromatiques et le nombre d'alertes structurelles. QED a été appliqué dans le criblage virtuel de grandes bases de données de composés pour filtrer les molécules favorables65 et pour aider à la construction et à l'analyse comparative de modèles d'apprentissage en profondeur pour la conception de médicaments de novo66. La force de QED est également reflétée par l'importance accordée à Gini.

Le descripteur ESTate_VSA compromet à la fois l'état ESTate (état électrotopologique) et l'indice VSA. L'index EState contient des informations sur la topologie au niveau de l'atome et au niveau moléculaire67. Contrairement à l'indice de forme moléculaire Kappa, qui met l'accent sur la structure des molécules, l'indice d'état électrotopologique révèle l'électronégativité de chaque atome ainsi que l'effet électronique pondéré. Il a été validé par sa forte corrélation avec le déplacement RMN 17O dans les éthers et l'affinité de liaison de divers ligands68,69. VSA est la valeur de la surface de Van der Waals d'un atome, et elle est utilisée pour déterminer si les indices ESTate sont calculés. En ce qui concerne l'amarrage moléculaire, l'interaction électrostatique entre le ligand et le récepteur est un élément important de l'évaluation de l'énergie dans le calcul semi-empirique du champ de force d'AutoDock, ce qui peut expliquer pourquoi il se classe huitième sur 208 descripteurs.

L'indice de Bertz a été défini pour représenter la complexité d'une molécule dérivée quantitativement de graphes moléculaires70. Il comprend deux propriétés de la molécule : le nombre de lignes dans le graphique linéaire et le nombre d'hétéroatomes. Comme l'hétérogénéité et la connectivité sont intégrées dans un seul indice, de nombreuses informations sont extraites de la molécule. BertzCT est particulièrement utile en synthèse organique. Il peut être utilisé pour surveiller la complexité des produits de synthèse, et ainsi évaluer la voie de synthèse envisagée avant la mise en œuvre71.

PEOE_VSA est un autre descripteur hybride constitué de l'égalisation partielle de l'électronégativité orbitale et de la surface de Van der Waals. L'égalisation partielle de l'électronégativité orbitale (PEOE) a d'abord été présentée pour évaluer la réactivité dans la conception synthétique chimique72. PEOE obtient les charges partielles basées sur l'électronégativité orbitale atomique de manière itérative dans toute la molécule. L'électronégativité des atomes peut être calculée avec précision dans des molécules organiques complexes, même avec des effets de retrait et de don d'électrons. La PEOE a d'abord été testée pour modéliser le goût des composés, puis appliquée aux études QSAR qui comprenaient la prédiction de l'activité anesthésique et l'inhibition de l'intégrase du VIH73,74. Pour simuler l'environnement in vivo, il est fortement suggéré d'attribuer des charges partielles aux ligands pour obtenir une énergie de liaison fiable dans AutoDock.

Cet article vise à présenter et à évaluer davantage ALORS en tant que système de sélection d'algorithmes basé sur un système de recommandation qui sélectionne automatiquement les variantes LGA sur une base par instance sur AutoDock. Des caractéristiques qui incluent des descripteurs moléculaires et des empreintes digitales relatives à chaque instance d'amarrage protéine-ligand ont été utilisées pour quantifier les composés chimiques. L'étude a montré qu'ALORS fournit les meilleurs résultats par rapport à tous les algorithmes candidats d'un pool d'algorithmes fixe. Neuf caractéristiques ont été mises en évidence comme des déterminants importants de l'interaction protéine-ligand et sont analysées pour inspirer l'exploration des caractéristiques chimiques qui sont essentielles à la performance d'amarrage. Les résultats de cette recherche mettent l'accent sur l'utilisation d'un sélecteur d'algorithme approprié et de fonctionnalités pour mieux aborder une tâche d'amarrage moléculaire qui recherche des composés médicamenteux. ALORS a le potentiel de devenir le choix préféré pour effectuer des tâches d'amarrage protéine-ligand pour la recherche CADD. De plus, les résultats de notre étude s'ajoutent aux applications en expansion rapide des sélections automatiques d'algorithmes.

Cependant, une limite de notre étude est que l'ACE était la seule protéine adoptée pour la génération de données d'amarrage. Bien qu'ALORS fonctionne bien dans le cas d'amarrage avec ACE ; néanmoins, la généralisabilité de notre modèle à d'autres protéines reste à déterminer. Plus de protéines devraient être incorporées à notre modèle pour augmenter la diversité de l'interaction protéine-ligand. Par conséquent, l'extension des scénarios d'amarrage avec des protéines cibles variées peut présenter une évaluation plus complète des performances d'ALORS en tant qu'outil AS. Dans le même temps, les caractéristiques sélectionnées à la main des molécules dérivées de preuves empiriques sont des options tout aussi viables. Des fonctionnalités sélectionnées à la main qui sont plus spécifiques et pertinentes peuvent être mélangées avec des fonctionnalités sélectionnées par algorithme pour obtenir plus de pertinence et de précision.

D'autres programmes d'amarrage protéine-ligand tels que DOCK, Glide et CABSdock sont également recommandés, et l'algorithme sous-jacent de chaque plate-forme d'amarrage peut être adapté à des situations d'amarrage spécifiques. AutoDock fonctionne bien dans l'amarrage automatisé des ligands aux macromolécules en raison de son algorithme de recherche LGA amélioré et de sa fonction de notation empirique sans liaison, mais il reste à voir si les programmes d'amarrage exhaustifs basés sur la recherche tels que Glide et DOCK qui utilisent l'algorithme de correspondance géométrique fonctionnent mieux. dans d'autres domaines. Une attention supplémentaire peut être accordée à l'évaluation et à la sélection automatique des meilleurs programmes d'amarrage dans différents scénarios d'amarrage.

Au cours de l'étude, nous avons remarqué la prévalence croissante de l'application des réseaux de neurones (NN) dans la prédiction de l'interaction protéine-ligand. Les réseaux de neurones, qui sont composés de couches et de neurones pour reconnaître des modèles tels que des vecteurs numériques, des images, des textes, des sons et même des séries temporelles, sont largement utilisés pour les tâches de classification ou de prédiction. Dans le cadre des réseaux de neurones, les réseaux de neurones graphiques (GNN) s'appuient sur la caractérisation des données sous forme de graphes constitués de nœuds et d'arêtes et excellent dans la capture de la relation non linéaire dans les images par rapport aux modèles de régression ou de classification traditionnels75. Les GNN sont particulièrement utiles pour les données graphiques contenant des informations relationnelles. Comme les molécules sont des structures liées, les informations naturelles pour les produits chimiques peuvent être représentées sous forme de graphiques moléculaires irréguliers. Les caractéristiques basées sur l'image dérivées des molécules apportent des résultats plus prometteurs que les caractéristiques traditionnelles dérivées des descripteurs moléculaires76. Par conséquent, davantage d'efforts peuvent être déployés dans la mise en œuvre des GNN pour une meilleure prédiction de l'interaction protéine-ligand.

Le récepteur, ACE, peut être trouvé avec PDB DOI : 1O86, et les ligands d'amarrage sont dans la base de données ZINC15 : https://zinc15.docking.org/catalogs/dbfda/.

Enzyme humaine de conversion de l'angiotensine

Algorithme génétique lamarckien

Système de recommandation d'algorithmes

Découverte/conception de médicaments

Découverte/conception de médicaments assistée par ordinateur

Structurer les relations d'activité

Relations structure-activité quantitatives

Sélection d'algorithme

Problème d'amarrage protéine-ligand

Pas de théorème de repas gratuit

Algorithme génétique

Recherche locale

Filtrage collaboratif

Factorisation matricielle

Décomposition en valeurs singulières

Forêt aléatoire

Administration des aliments et des médicaments

Fichier de données moléculaires

Banque de données sur les protéines

Banque de données sur les protéines, charge partielle (Q) et type d'atome (T)

Moyenne

Analyse des composants principaux

Incorporation voisine stochastique distribuée en T

Estimation quantitative de la similarité avec la drogue

Égalisation partielle de l'électronégativité orbitale

Virus de l'immunodéficience humaine

Les réseaux de neurones

Réseaux de neurones graphiques

Everhardus, JA Conception de médicaments : Chimie médicinale (Elsevier, 2017).

Google Scholar

Jeffrey, C., Carl, R. & Parvesh, K. Le prix du progrès : financement et financement du développement de médicaments contre la maladie d'Alzheimer. Démence d'Alzheimer Trans. Rés. Clin. Inter. 20, 875 (2018).

Google Scholar

Reymond, J.-L. Le projet spatial chimique. Acc. Chim. Rés. 48(3), 722–730 (2015).

Article CAS PubMed Google Scholar

Mullard, A. 2020 approbations de médicaments par la fda. Nat. Rev. Drug Discov. 20(2), 85–91 (2021).

Article CAS PubMed Google Scholar

Edgar, L.-L., Jurgen, B. & José, LM-F. Informatique pour la chimie, la biologie et les sciences biomédicales. J. Chem. Inf. Modèle. 61(1), 26–35 (2020).

Google Scholar

Wenbo, Y. & Alexander, DM Méthodes de conception de médicaments assistées par ordinateur. Dans Antibiotics (éd. Jack, E.) 85–106 (Springer, 2017).

Google Scholar

Stephani, JYM, Vijayakumar, G., Sunhye, H. & Sun, C. Rôle de la conception de médicaments assistée par ordinateur dans la découverte de médicaments modernes. Cambre. Pharm. Rés. 38(9), 1686-1701 (2015).

Article Google Scholar

Duch, W., Swaminathan, K. et Meller, J. Approches de l'intelligence artificielle pour la conception et la découverte rationnelles de médicaments. Courant. Pharm. Dés. 13(14), 1497-1508 (2007).

Article CAS PubMed Google Scholar

Mohamed, HB et al. Conception de médicaments assistée par ordinateur : succès et limites. Courant. Pharm. Dés. 22(5), 572–581 (2016).

Article Google Scholar

Fernando, DP-M., Edgar, L.-L., Juarez-Mercado, KE et Jose, LM-F. Méthodes de conception de médicaments computationnelles - perspectives actuelles et futures. In Silico Drug Des. 2, 19–44 (2019).

Google Scholar

Rice, JR Le problème de sélection d'algorithme. Adv. Calcul. 15, 65-118 (1976).

Article Google Scholar

Pascal, K., Holger, HH, Frank, N. & Heike, T. Sélection automatisée d'algorithmes : enquête et perspectives. Évol. Calcul. 27(1), 3–45 (2019).

Article Google Scholar

Wolpert, DH & Macready, WG Pas de théorèmes gratuits pour l'optimisation. IEEE Trans. Évol. Calcul. 1, 67–82 (1997).

Article Google Scholar

David, SG, Garrett, MM & Arthur, JO Amarrage automatisé de ligands flexibles : applications de l'autodock. J. Mol. Reconn. 9(1), 1–5 (1996).

3.0.CO;2-6" data-track-action="article reference" href="https://doi.org/10.1002%2F%28SICI%291099-1352%28199601%299%3A1%3C1%3A%3AAID-JMR241%3E3.0.CO%3B2-6" aria-label="Article reference 14" data-doi="10.1002/(SICI)1099-1352(199601)9:13.0.CO;2-6">Article Google Scholar

Garrett, MM et al. Amarrage automatisé utilisant un algorithme génétique lamarckien et une fonction d'énergie libre de liaison empirique. J. Comput. Chim. 19(14), 1639-1662 (1998).

3.0.CO;2-B" data-track-action="article reference" href="https://doi.org/10.1002%2F%28SICI%291096-987X%2819981115%2919%3A14%3C1639%3A%3AAID-JCC10%3E3.0.CO%3B2-B" aria-label="Article reference 15" data-doi="10.1002/(SICI)1096-987X(19981115)19:143.0.CO;2-B">Article Google Scholar

Emile, A., Emile, HLA & Jan, KL Local Search in Combinatorial Optimization (Princeton University Press, 2003).

MATH Google Scholar

Mısır, M. & Sebag, M. ALORS : Un système de recommandation d'algorithmes. Artef. Renseignement. 244, 291-314 (2017).

Article MathSciNet MATH Google Scholar

Meng, X.-Y., Zhang, H.-X., Mezei, M. & Cui, M. Amarrage moléculaire : une approche puissante pour la découverte de médicaments basée sur la structure. Courant. Calcul. Des médicaments aidés. 7(2), 146-157 (2011).

Article CAS PubMed PubMed Central Google Scholar

Fischer, E. Influence de la configuration sur l'action des enzymes. environ. Allemand Chem.Ges.27(3), 2985-2993 (1894).

Article CAS Google Scholar

Koshland, DE Jr. Corrélation de la structure et de la fonction dans l'action enzymatique : les outils théoriques et expérimentaux conduisent à des corrélations entre la structure et la fonction de l'enzyme. Sciences 142 (3599), 1533-1541 (1963).

Article ADS CAS PubMed Google Scholar

Cherayathumadom, MV, Xiaohui, J., Tom, O. & Marvin, W. Ligandfit : Une nouvelle méthode pour l'amarrage rapide dirigé par la forme des ligands aux sites actifs des protéines. J. Mol. Gr. Modèle. 21(4), 289–307 (2003).

Article Google Scholar

Fredrik, O., Garrett, MM, Michel, FS, Arthur, JO & David, SG Amarrage automatisé à plusieurs structures cibles : incorporation de la mobilité des protéines et de l'hétérogénéité structurelle de l'eau dans l'autodock. Structure des protéines. Fonct. Bioinf. 46(1), 34–40 (2002).

Article Google Scholar

Gareth, J., Peter, W., Robert, CG, Andrew, RL & Robin, T. Développement et validation d'un algorithme génétique pour l'amarrage flexible. J. Mol. Biol. 267(3), 727–748 (1997).

Article Google Scholar

Richard, AF et al. Glide : une nouvelle approche pour un amarrage et un score rapides et précis. 1. Méthode et évaluation de la précision d'amarrage. J. Med. Chim. 47(7), 1739–1749 (2004).

Article Google Scholar

Isabella, AG, Felipe, SP & Laurent, ED Fonctions de notation empiriques pour le criblage virtuel basé sur la structure. Devant. Pharmacol. 9, 1089 (2018).

Article Google Scholar

Huang, S.-Y., Grinter, SZ & Zou, X. Fonctions de notation et leurs méthodes d'évaluation pour l'amarrage protéine-ligand : avancées récentes et orientations futures. Phys. Chim. Chim. Phys. 12(40), 12899–12908 (2010).

Article CAS PubMed Google Scholar

Garrett, MM et al. Autodock4 et autodocktools4 : Amarrage automatisé avec flexibilité de récepteur sélectif. J. Comput. Chim. 30(16), 2785–2791 (2009).

Article Google Scholar

Gromiha, MM Chapitre 7-Protein Interactions. Dans Protein Bioinformatics (éd. Gromiha, MM) 247–302 (Academic Press, 2010).

Chapitre Google Scholar

Elaine, CM, Brian, KS & Irwin, DK Amarrage automatisé avec évaluation énergétique basée sur le réseau. J. Comput. Chim. 13(4), 505–524 (1992).

Article Google Scholar

Alexander, T., Lukas, G., Tanja, T., Marcel, W. & Eyke, H. Sélection d'algorithmes au niveau méta. Mach. Apprendre. 5, 417 (2022).

Google Scholar

Lin, X., Frank, H., Holger, HH et Kevin, L.-B. Satzilla-07 : La conception et l'analyse d'un portefeuille d'algorithmes pour sat. Dans Conférence internationale sur les principes et la pratique de la programmation par contraintes 712–727 (Springer, 2007).

Lars, K. Sélection d'algorithmes pour les problèmes de recherche combinatoire : une enquête. Dans Data Mining and Constraint Programming 149–190 (Springer, 2016).

Mario, AM, Michael, K., & Saman, KH Le problème de sélection d'algorithmes sur le domaine d'optimisation continue. Dans Computational Intelligence in Intelligent Data Analysis 75–89 (Springer, 2013).

Gomes, CP & Selman, B. Portefeuilles algorithmiques. Artif. Renseignement. 126(1), 43–62 (2001).

Article MathSciNet MATH Google Scholar

Xu, L., Hoos, HH & Leyton-Brown, K. Hydra : Configuration automatique d'algorithmes pour la sélection basée sur un portefeuille. Dans Actes de la 24e Conférence AAAI sur l'intelligence artificielle (AAAI) 210-216 (2010).

Aldy, G., Hoong, CL et Mustafa, M. Conception et comparaison de plusieurs portefeuilles de configurations de paramètres pour la sélection d'algorithmes en ligne. Dans Actes de la 10e Conférence sur l'apprentissage et l'optimisation intelligente (LION), Vol. 10079 du LNCS 91-106 (Naples, Italie, 2016).

Andrea, L., Yuri, M., Horst, S. et Vijay, AS Apprentissage en profondeur pour les portefeuilles d'algorithmes. Dans Actes de la 13e Conférence sur l'intelligence artificielle (AAAI) 1280-1286 (2016).

Bernhard, P., Hilan, B., & Christophe, G.-C. Dis-moi qui peut t'apprendre et je peux te dire qui tu es : Repérer divers algorithmes d'apprentissage. Dans Actes de la 7e Conférence internationale sur l'apprentissage automatique (ICML) 743–750 (2000).

Xiaoyuan, S. & Taghi, MK Une enquête sur les techniques de filtrage collaboratif. Adv. Artef. Renseignement. 2009, 4 (2009).

Google Scholar

Mustafa, M. Sélection d'algorithmes sur la sélection adaptative d'opérateurs : une étude de cas sur les algorithmes génétiques. À la 15e Conférence sur l'apprentissage et l'optimisation intelligente (LION), LNCS 12931 (2021).

Mustafa, M., Aldy, G. et Pieter, V. Sélection d'algorithmes pour le problème de course d'orientation en équipe. Dans Conférence européenne sur le calcul évolutif en optimisation combinatoire (EvoCOP) (partie d'EvoStar), Vol. 13222 du LNCS 33–45 (Springer, 2022).

Mustafa, M. Sélection d'algorithmes parmi les configurateurs d'algorithmes : une étude de cas sur l'optimisation multi-objectifs. Dans la série de symposiums IEEE sur l'intelligence computationnelle (SSCI). IEEE (2022).

Mustafa, M. Sélection d'algorithmes inter-domaines : sélection d'algorithmes à travers des hyper-heuristiques de sélection. Dans la série de symposiums IEEE sur l'intelligence computationnelle (SSCI). IEEE (2022).

Mustafa, M. Sélection automatisée généralisée de la fonction énergétique pour la prédiction de la structure des protéines sur les modèles hp 2d et 3d. Dans la série de symposiums IEEE sur l'intelligence computationnelle (SSCI) (2021).

Mustafa, M. Génération heuristique par instance basée sur la sélection pour la prédiction de la structure des protéines du modèle 2d hp. Dans la série de symposiums IEEE sur l'intelligence computationnelle (SSCI). IEEE (2021).

Gene, HG & Christian, R. Décomposition des valeurs singulières et solutions des moindres carrés. Numerische Mathematik 14(5), 403–420 (1970).

Article MathSciNet Google Scholar

Breiman, L. Forêts aléatoires. Mach. Apprendre. 45(1), 5–32 (2001).

Article MATH Google Scholar

Sterling, T. & Irwin, JJ Découverte de 15 ligands de zinc pour tous. J. Chem. Inf. Modèle. 55(11), 2324–2337 (2015).

Article CAS PubMed PubMed Central Google Scholar

Ramanathan, N., Sylva, LUS, Edward, DS & Acharya, KR Structure cristalline du complexe enzyme de conversion de l'angiotensine humaine-lisinopril. Nature 421(6922), 551–554 (2003).

Article Google Scholar

Noël, MO et al. Babel ouvert : Une boîte à outils chimique ouverte. J. Cheminf. 3(1), 1–14 (2011).

Google Scholar

Greg, L. et al. Rdkit : une suite logicielle pour la chimie informatique, la chimie computationnelle et la modélisation prédictive. Greg Landrum 2, 47 (2013).

Google Scholar

Chun Wei Yap. Padel-descriptor : Un logiciel open source pour calculer des descripteurs moléculaires et des empreintes digitales. J. Comput. Chim. 32(7), 1466-1474 (2011).

Article PubMed Google Scholar

Sunghwan, K. et al. Pubchem en 2021 : nouveau contenu de données et interfaces Web améliorées. Nucleic Acids Res. 49(D1), D1388–D1395 (2021).

Article Google Scholar

Anil, KJ, Narasimha, MM et Patrick, JF Regroupement de données : un examen. Calcul ACM. Surv. 31(3), 264–323 (1999).

Article Google Scholar

Peter, JR Silhouettes : une aide graphique à l'interprétation et à la validation de l'analyse par grappes. J. Comput. Appl. Mathématiques. 20, 53–65 (1987).

Article MATH Google Scholar

Khanna, V. & Ranganathan, S. Répartition spatiale des propriétés physicochimiques parmi les métabolites humains, les médicaments et les toxines. BMC Bioinf. 10(15), S10 (2009).

Article Google Scholar

Tudor, IO, Andrew, MD, Simon, JT et Paul, DL Existe-t-il une différence entre les pistes et les médicaments ? Une perspective historique. J. Chem. Informer. Calcul. Sci. 41(5), 1308–1315 (2001).

Article Google Scholar

Daniel, FV et al. Propriétés moléculaires qui influencent la biodisponibilité orale des candidats médicaments. J. Med. Chim. 45(12), 2615–2623 (2002).

Article Google Scholar

Alexandru, TB Indice topologique basé sur la distance hautement discriminant. Chim. Phys. Lett. 89(5), 399–404 (1982).

Article MathSciNet Google Scholar

Roy, K. Descripteurs topologiques dans les études de conception et de modélisation de médicaments. Mol. Diversité 8(4), 321–323 (2004).

Article ADS CAS Google Scholar

Zlatko, M. & Nenad, T. Une approche théorique des graphes des relations structure-propriété (Springer, 1992).

Google Scholar

Lowell, HH & Lemont, BK Les indices chi de connectivité moléculaire et les indices de forme kappa dans la modélisation structure-propriété. Rév. Comput. Chim. 5, 367–422 (1991).

Google Scholar

Lemont, BK Un indice de forme à partir de graphiques moléculaires. Quant. Relation structure-activité. 4(3), 109–116 (1985).

Article Google Scholar

Bickerton, GR, Paolini, GV, Besnard, J., Muresan, S. & Hopkins, AL Quantification de la beauté chimique des médicaments. Nat. Chim. 4(2), 90–98 (2012).

Article CAS PubMed PubMed Central Google Scholar

Artem, C. et al. Modélisation Qsar : Où étais-tu ? Où vas-tu?. J. Med. Chim. 57(12), 4977–5010 (2014).

Article Google Scholar

Raphaël, G.-B. et coll. Conception chimique automatique à l'aide d'une représentation continue des molécules basée sur les données. ACS Central Sci. 4(2), 268-276 (2018).

Article Google Scholar

Lowell, HH, Brian, M. & Lemont, BK L'état électrotopologique : un indice atomique pour qsar. Quant. Structure. Relation d'activité. 10(1), 43–51 (1991).

Article Google Scholar

Lemont, BK & Lowell, HH Un indice d'état électrotopologique pour les atomes dans les molécules. Pharm. Rés. 7(8), 801–807 (1990).

Article Google Scholar

de Carolina, G., Lemont, BK & Lowell, HH Modélisation Qsar avec les indices d'état électrotopologiques : Corticostéroïdes. J. Comput. Aidé Mol. Dés. 12(6), 557–561 (1998).

Article Google Scholar

Steven, HB Le premier indice général de complexité moléculaire. Confiture. Chim. Soc. 103(12), 3599–3601 (1981).

Article Google Scholar

Steven, HB Convergence, complexité moléculaire et analyse synthétique. Confiture. Chim. Soc. 104(21), 5801–5803 (1982).

Article Google Scholar

Gasteiger, J. & Marsili, M. Égalisation partielle itérative de l'électronégativité orbitale - un accès rapide aux charges atomiques. Tétraèdre 36(22), 3219–3228 (1980).

Article CAS Google Scholar

Sven, H., Svante, W., William, JD, Johann, G. & Michael, GH L'activité anesthésique et la toxicité des éthers éthylméthyliques halogénés, un QSAR multivarié modélisé par PLS. Quant. Structure. Relation d'activité. 4(1), 1–11 (1985).

Article Google Scholar

Hongbin, Y. & Abby, LP Études QSAR de l'inhibition de l'intégrase du VIH-1. Méd bioorganique. Chim. 10(12), 4169–4183 (2002).

Article Google Scholar

Zhou, J. et al. Réseaux de neurones graphiques : un examen des méthodes et des applications. AI Open 1, 57–81 (2020).

Article Google Scholar

Dejun, J. et al. Les réseaux de neurones graphiques pourraient-ils apprendre une meilleure représentation moléculaire pour la découverte de médicaments ? une étude comparative des modèles basés sur des descripteurs et basés sur des graphes. J. Cheminform. 13(1), 1–23 (2021).

Google Scholar

Télécharger les références

Ce travail est soutenu par la subvention de démarrage de recherche interdisciplinaire de l'Université Duke Kunshan.

Département des sciences naturelles et appliquées, Duke Kunshan University, Kunshan, Chine

Tianlai Chen, Xiwen Shu, Huiyuan Zhou, Floyd A. Beckford et Mustafa Misir

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

MM et FB ont conçu et conçu l'étude. TC et HZ ont réalisé la génération des données. MM, XS, TC et HZ ont implémenté le modèle et la visualisation. Tous les auteurs ont discuté des résultats et ont contribué de manière égale au manuscrit final.

Correspondance à Floyd A. Beckford ou Mustafa Misir.

Les auteurs ne déclarent aucun intérêt concurrent.

Springer Nature reste neutre en ce qui concerne les revendications juridictionnelles dans les cartes publiées et les affiliations institutionnelles.

Libre accès Cet article est sous licence Creative Commons Attribution 4.0 International, qui autorise l'utilisation, le partage, l'adaptation, la distribution et la reproduction sur tout support ou format, à condition que vous accordiez le crédit approprié à l'auteur ou aux auteurs originaux et à la source, fournissez un lien vers la licence Creative Commons et indiquez si des modifications ont été apportées. Les images ou tout autre matériel de tiers dans cet article sont inclus dans la licence Creative Commons de l'article, sauf indication contraire dans une ligne de crédit au matériel. Si le matériel n'est pas inclus dans la licence Creative Commons de l'article et que votre utilisation prévue n'est pas autorisée par la réglementation légale ou dépasse l'utilisation autorisée, vous devrez obtenir l'autorisation directement du détenteur des droits d'auteur. Pour voir une copie de cette licence, visitez http://creativecommons.org/licenses/by/4.0/.

Réimpressions et autorisations

Chen, T., Shu, X., Zhou, H. et al. Sélection d'algorithmes pour l'amarrage protéine-ligand : stratégies et analyse sur l'ACE. Sci Rep 13, 8219 (2023). https://doi.org/10.1038/s41598-023-35132-5

Télécharger la citation

Reçu : 07 janvier 2023

Accepté : 12 mai 2023

Publié: 22 mai 2023

DOI : https://doi.org/10.1038/s41598-023-35132-5

Toute personne avec qui vous partagez le lien suivant pourra lire ce contenu :

Désolé, aucun lien partageable n'est actuellement disponible pour cet article.

Fourni par l'initiative de partage de contenu Springer Nature SharedIt

En soumettant un commentaire, vous acceptez de respecter nos conditions d'utilisation et nos directives communautaires. Si vous trouvez quelque chose d'abusif ou qui ne respecte pas nos conditions ou directives, veuillez le signaler comme inapproprié.