NGSReadsTreatment – A Cuckoo Filter-based Tool for Removing Duplicate Reads in NGS Data
Links relacionados:
(NGSReadsTreatment - Uma ferramenta baseada em filtro de cuco para remover leituras duplicadas em dados NGS)
Artigo publicado em: 12 de agosto de 2019
Resumo
As plataformas NGS (Next-Generation Sequencing) fornecem uma abordagem importante para obter milhões de leituras curtas de amostras. O NGS tem sido utilizado em uma ampla gama de análises, como na determinação de sequências genômicas, análise de processos evolutivos, identificação da expressão gênica e resolução de análises metagenômicas. Geralmente, a qualidade dos dados do NGS afeta as conclusões finais do estudo. Além disso, a avaliação da qualidade é geralmente considerada o primeiro passo na análise de dados para garantir o uso de apenas leituras confiáveis para estudos posteriores. Nas plataformas NGS, a presença de leituras duplicadas (redundância) que geralmente são introduzidas durante o sequenciamento da biblioteca é um problema importante. Isso pode ter um sério impacto no aplicativo de pesquisa, pois redundâncias nas leituras podem levar a dificuldades nas análises subsequentes (por exemplo, de nova montagem do genoma). Aqui, apresentamos o NGSReadsTreatment, uma ferramenta computacional para a remoção de leituras duplicadas em conjuntos de dados de extremidade par ou extremidade única. O NGSReadsTreatment pode manipular leituras de qualquer plataforma com o mesmo ou diferentes comprimentos de sequência. Usando a estrutura probabilística filtro de cuco, as leituras redundantes são identificadas e removidas comparando-se as leituras entre si. Portanto, nenhum pré-requisito é necessário além do conjunto de leituras. O NGSReadsTreatment foi comparado com outras ferramentas de remoção de redundância na análise de diferentes conjuntos de leituras. Os resultados demonstraram que o NGSReadsTreatment foi melhor do que as outras ferramentas, tanto na quantidade de redundâncias removidas quanto no uso de memória computacional para todas as análises realizadas.
Autores:
Programa de Pós-Graduação em Computação Aplicada, Universidade Federal do Pará (UFPA), Pará, Brasil
* Adonney Allan de Oliveira Veras - Currículo Lattes
* Antonio Sérgio Cruz Gaia - Currículo Lattes
* Mônica Silva de Oliveira - Currículo Lattes
Universidade Federal Rural da Amazônia Campus Tomé-Açu (UFRA), Pará, Brasil
* Pablo Henrique Caracciolo Gomes de Sá - Currículo Lattes
Quantidade de acessos
Fonte: https://www.nature.com/articles/s41598-019-48242-w/metrics
Estatísticas de Download nos Países
Fonte: http://camtuc.ufpa.br/images/banners/artigos/NGSReadsTreatment/PasesVsDownloadsII.png