Como gerir terabytes de dados genómicos sem perder integridade nem eficiência?

Que papel desempenham os repositórios institucionais na investigação em larga escala?

De que forma os princípios FAIR transformam a investigação em genómica?

Quais são os maiores desafios na coordenação de equipas que produzem e analisam dados massivos?

DESCRIÇÃO

O grupo de investigação desenvolve projetos que envolvem a sequenciação em larga escala do genoma (DNA) e do transcriptoma da abelha. Entre os principais projetos encontram‑se MEDIBEES e Better‑B, que abrangem milhares de indivíduos, e o projeto BEE3Pomics, dedicado ao estudo do transcriptoma. A equipa responsável pela análise de dados é constituída por cinco elementos e trabalha com volumes muito elevados de informação, frequentemente na ordem dos terabytes.

A gestão de dados constitui um desafio central. Os dados brutos fornecidos pelas empresas de sequenciação são armazenados no cluster do IPB (https://cedri.ipb.pt/about/cluster), com mecanismos que garantem duplicação e integridade. Estes dados são organizados em pastas com permissões de leitura para todos os membros da equipa, sem possibilidade de modificação, assegurando que o raw data permanece inalterado.

O processamento e a análise são efetuados em contas individuais, sendo os resultados finais duplicados e organizados em diretórios partilhados. Para fins de publicação, os dados genéticos são depositados em repositórios disciplinares, como o NCBI Sequence Read Archive (SRA). As análises integram igualmente genomas externos disponíveis no SRA. Sempre que adequado, informação adicional é disponibilizada em materiais suplementares.

TRÊS LIÇÕES APRENDIDAS

O planeamento é essencial
A definição de um plano de gestão de dados antes do início do projeto é fundamental para evitar redundâncias, clarificar responsabilidades e garantir eficiência ao longo de todo o ciclo de vida dos dados. O planeamento deve incluir a definição de acessos, a escolha das plataformas tecnológicas, a estrutura de organização da informação e os procedimentos de backup e preservação. Este processo não deve ser encarado apenas como uma exigência das entidades financiadoras, mas como uma prática estruturante para assegurar qualidade, consistência e continuidade no trabalho científico.

Os repositórios institucionais são estratégicos
A utilização de plataformas institucionais, como o dados.ip.pt, revela‑se crucial para uma gestão eficaz e sustentável dos dados de investigação. Estas ferramentas facilitam o controlo de versões, promovem a colaboração entre equipas e permitem a atribuição de identificadores persistentes (DOI), contribuindo para uma maior transparência e organização. Além disso, simplificam a preparação de artigos científicos, a elaboração de relatórios para entidades financiadoras e o cumprimento de requisitos de partilha e preservação.

Os princípios FAIR são indispensáveis
A adoção dos princípios FAIR (Findable, Accessible, Interoperable, Reusable) aumenta significativamente a transparência, a reprodutibilidade e o impacto da investigação. Dados bem documentados, acessíveis e interoperáveis facilitam a sua reutilização por outros investigadores, ampliam o alcance dos resultados e reforçam a credibilidade científica. Integrar estes princípios desde as fases iniciais do projeto permite uma gestão mais robusta e alinhada com as melhores práticas internacionais.

TRÊS DESAFIOS FUTUROS

Integração total da equipa
É fundamental assegurar que todos os membros do grupo utilizam o repositório institucional de forma consistente e integrada. A adoção desigual destas plataformas reduz significativamente a sua utilidade e compromete a eficiência da gestão de dados. A utilização sistemática por toda a equipa promove transparência, evita duplicações e reforça a continuidade do trabalho, sobretudo em projetos de longa duração ou com elevada rotatividade de investigadores.

Planos de gestão de dados robustos
A elaboração de planos de gestão de dados que sejam simultaneamente aceites pelas entidades financiadoras e úteis para a equipa de investigação continua a ser um desafio. Estes planos devem ser suficientemente estruturados para garantir conformidade e qualidade, mas também flexíveis para acompanhar a natureza dinâmica dos projetos. Apesar da sua importância, ainda existe apoio limitado para o desenvolvimento destes documentos, que exigem competências técnicas, tempo e coordenação entre diferentes intervenientes.

Ferramentas para monitorização global
A implementação de sistemas institucionais de acompanhamento — semelhantes a plataformas como o GitLab — é essencial para monitorizar prazos, entregas, DOIs e deliverables, assegurando uma gestão integrada e reduzindo o risco de perda de informação. Embora os repositórios desempenhem um papel central na preservação e partilha de dados, não são suficientes para garantir o acompanhamento operacional dos projetos, especialmente no contexto de iniciativas europeias, que exigem níveis elevados de reporte, rastreabilidade e coordenação.

CINCO QUESTÕES SOBRE GDI

Como define, implementa e avalia as práticas de gestão de dados de investigação?

As práticas de gestão de dados de investigação assentam na definição de regras claras para armazenamento, processamento, análise, preservação e partilha. No domínio da genómica, a integridade dos dados brutos é considerada crítica; por esse motivo, os ficheiros são armazenados em duplicado, preferencialmente em locais físicos distintos, e protegidos contra qualquer tipo de alteração. Os objetivos de cada projeto orientam o dimensionamento do espaço necessário, a seleção das ferramentas e a distribuição de responsabilidades. Encontra‑se em implementação um conjunto de procedimentos que inclui a centralização de todos os ficheiros — desde relatórios de qualidade até resultados finais — na plataforma dados.ipb.pt, permitindo o acompanhamento das tarefas e a reutilização de informação. Adicionalmente, recorre‑se ao GitLab para definição de tarefas, prazos e responsáveis, promovendo transparência e eficiência na organização do trabalho.

Quais os principais benefícios dessas práticas?

A adoção de práticas estruturadas de gestão de dados proporciona benefícios significativos ao processo de investigação. A organização clara dos ficheiros facilita a identificação de análises concluídas e de tarefas pendentes, contribuindo para uma gestão mais eficiente e para um trabalho colaborativo mais integrado e transparente.

A redução de redundâncias constitui outro benefício relevante, uma vez que análises intermédias podem ser reutilizadas em diferentes fases do projeto, poupando tempo e recursos. A verificação por vários membros diminui a probabilidade de erros, aumentando a qualidade e a consistência dos resultados.

A existência de informação organizada acelera igualmente a redação de artigos científicos e de relatórios para entidades financiadoras, tornando estes processos mais eficazes. No conjunto, estas práticas otimizam a utilização dos recursos disponíveis e reforçam a fiabilidade e o impacto da investigação.

Em que medida a gestão de dados de investigação contribui para a otimização do processo de investigação?

A gestão eficiente de dados contribui para eliminar repetições desnecessárias, reduzir o consumo de espaço e tempo e agilizar a produção científica. A partilha de scripts entre equipas ou entre membros da mesma equipa constitui um exemplo prático dessa otimização, ao maximizar o conhecimento coletivo e evitar trabalho redundante.

Para que tal seja possível, é essencial que os scripts estejam devidamente anotados e documentados, permitindo a compreensão dos procedimentos e a sua reutilização por qualquer investigador.

A possibilidade de reutilizar análises intermédias em diferentes etapas do projeto aumenta a eficiência global e reduz o esforço duplicado. Assim, estas práticas otimizam simultaneamente os recursos computacionais e humanos e aceleram o avanço científico.

Que vantagens e condicionantes aponta na partilha de dados de investigação?

A partilha de dados contribui para acelerar o progresso científico e aumentar a transparência. No campo da genómica, os mesmos dados podem ser utilizados para responder a questões diversas, maximizando o retorno do investimento público. A partilha também reforça a visibilidade dos investigadores e potencia oportunidades de colaboração e reconhecimento académico.

Entre as condicionantes mais frequentes encontra‑se a insuficiência de metadados, que dificulta a integração e reutilização dos dados em diferentes contextos. Ainda assim, na área da genética, as práticas de partilha encontram‑se relativamente consolidadas, sendo a deposição de dados em repositórios disciplinares uma exigência comum.

De que forma os diferentes atores envolvidos no processo de investigação estão comprometidos com a gestão de dados de investigação?

O investigador principal é responsável pela elaboração de planos de gestão de dados que ultrapassem o mero cumprimento formal das exigências das entidades financiadoras e que contribuam efetivamente para a organização e eficiência do projeto. É igualmente essencial que todos os membros da equipa sigam as recomendações definidas nesses planos, nomeadamente no que respeita à partilha e organização dos dados em repositórios públicos e institucionais, assegurando transparência e acessibilidade.

As instituições desempenham um papel determinante ao disponibilizar recursos organizacionais e financeiros que facilitem a implementação destas práticas. O investimento em repositórios e ações de formação constitui um contributo relevante e poderá evoluir para incluir apoio direto ao planeamento e à gestão de projetos, promovendo processos mais claros e eficientes.

A inclusão de unidades curriculares dedicadas à gestão de dados, especialmente ao nível do doutoramento, é igualmente considerada uma medida importante para garantir que os futuros investigadores compreendem a relevância destas práticas e as aplicam de forma consistente.