Modele de hamace

Pour le jeu de données d`anticorps, les paramètres hamac ont été laissés à des valeurs par défaut (ce qui signifie Rechercher jusqu`à 250 clusters), MUSI a été configuré pour rechercher jusqu`à 100 clusters (− m 100 option) et l`outil d`échantillonnage Gibbs a été exécuté trois fois, configuré pour utiliser le cluster de corbeille et pour s de 2, 10 et 100 grappes, respectivement. Les données d`entrée peuvent contenir des multiplicités; par conséquent, un ensemble de séquences uniques est généré en premier. Toutefois, le nombre de fois où chaque séquence unique s`est produite est conservée et fait partie de la sortie finale. En outre, hamac soutient le concept des étiquettes de séquence. Chaque occurrence d`une séquence peut éventuellement avoir une étiquette associée, de sorte que les informations sur combien de fois chaque séquence unique s`est produite avec chaque étiquette est disponible. La motivation des étiquettes de séquences est d`offrir la possibilité de structurer des jeux de données. Une étiquette peut, par exemple, constituer un cycle de sélection ou d`amplification d`une expérience d`affichage du phage, dans laquelle des phages ont été séquencés en plusieurs phases de l`expérience. Bien que les outils mentionnés ci-dessus fonctionnent bien sur des jeux de données plus petits pouvant aller jusqu`à des milliers de séquences, ils n`ont pas été conçus pour traiter les ordres de grandeur plus volumineux. Dans cet article, nous aborçons ce problème en introduisant hamac, un nouvel outil logiciel pour le clustering de séquences peptidiques. Hamac utilise le profil HMMs pour une représentation computationnelle précise des motifs de séquences et est basé sur l`idée de croissance progressive du cluster. Les trois principales propriétés de cette approche sont (i) la capacité de traiter des ensembles de données très volumineux, (II) la capacité d`identifier plusieurs motifs distincts au sein d`un jeu de classes et (III) la polyvalence, car aucune limite n`est mise à l`origine des informations, et aucune connaissance préalable des données n`est Obligatoire. Comparé aux outils existants, hamac est beaucoup plus rapide et peut traiter les ensembles de données de magnitude plus grandes, tout en atteignant la meilleure qualité de résultats de clustering. Une autre différence est que, avec les paramètres par défaut, hamac peut supprimer de nombreuses séquences du résultat, si elles ne correspondent pas à un cluster bien.

Cette fonctionnalité est bénéfique dans le cas de jeux de données volumineux et bruyants et peut être utilisé en utilisant hamac comme un outil de dénoising. D`autre part, dans le cas de jeux de données petits et propres contenant des motifs de séquences subtiles seulement, ce comportement peut ne pas être désiré. Il peut être modifié par paramétrage, mais nous estimons que pour de tels cas, certaines des méthodes plus intensives en calcul, telles que l`échantillonnage de Gibbs, peuvent être plus appropriées. Workflow d`algorithme hamac. Après l`extraction de séquences uniques, hamac utilise l`algorithme de clustering gourmand rapide pour identifier les cœurs de cluster initiaux. L`étape d`extension ajoute plus de séquences dans les clusters et l`étape de fusion fusionne plusieurs clusters en un seul. Les étapes d`extension et de fusion sont alterné plusieurs fois avec des exigences de similitude progressivement assouplies. Après la dernière étape de fusion, les clusters et séquences résultants n`appartenant à aucun cluster sont signalés pour télécharger le hamac à Twenty Mile voisinage brochure, s`il vous plaît cliquez ici. Ici, les différences dans les temps d`exécution et les résultats étaient considérables. Alors que le hamac se termine en moins de 3 min, les deux autres outils ont besoin d`heures pour terminer, avec l`outil d`échantillonnage de Gibbs seulement être en mesure de terminer dans 72 h à partir de 100 clusters.

Category(s): Sem categoria

Comments are closed.