DESCRIÇÃO

O projeto Espectroscopia de raios X de ultra-elevada precisão de óxidos de metais de transição e terras raras corresponde a um estudo aprofundado de física fundamental com amplas aplicações na indústria e em diversas áreas científicas. 

O objetivo principal é a construção de um espectrómetro de precisão para realizar medições extremamente apuradas em condições de matéria extrema, como iões altamente carregados e átomos exóticos. 

Para tal, desenvolve-se uma base de dados abrangente de formas espectrais de óxidos de metais de transição e terras raras,  crucial para a calibração de detetores em observações astronómicas e outras aplicações científicas.

Nesta área de trabalho, é essencial obter dados extremamente precisos que possibilitem a calibração dos instrumentos avançados de medição, tendo em consideração que os elementos que são medidos são assimétricos.

A construção de um espectrómetro com estas características permite aos investigadores autonomia relativamente a laboratórios estrangeiros. 

TRÊS LIÇÕES APRENDIDAS

Idealizar a forma de recolha dos dados

Uma das lições mais importantes aprendidas com este projeto foi a necessidade de dedicar mais tempo à criação de cenários sobre a forma de organização dos dados e a sua forma de partilha. Dada a precisão exigida na recolha, era essencial optar por uma organização dos dados precisa, mas simultaneamente fluída para que os datasets pudessem vir a ser usados em diferentes contextos.

Inicialmente, não foram considerados adequadamente os formatos e a hierarquização dos dados, o que resultou em dificuldades significativas na fase final de partilha. Esta experiência sublinhou a importância de um planeamento meticuloso desde o início do projeto, garantindo que todos os dados sejam estruturados de maneira lógica e acessível.

Normalização dos Metadados

Normalizar os metadados é tão importante para o processo científico quanto o tratamento dos próprios dados e só assim é possível garantir a interoperabilidade entre os diversos stakeholders

A normalização dos metadados assegura que os dados possam ser compreendidos e utilizados de forma eficiente por todos os envolvidos, independentemente de suas áreas de especialização.

A ausência de uma descrição clara e consistente dos metadados obsta à utilização dos dados por outros investigadores, destacando-se a necessidade de estabelecer e aplicar padrões rigorosos de documentação. 

Formação contínua em Gestão de Dados de lnvestigação

A sobrecarga de trabalho e a falta de tempo para formação resultaram em inconsistências na forma como os dados foram geridos e partilhados. Esta lição enfatiza a necessidade de um compromisso contínuo com a cultura da Ciência Aberta e a formação em boas práticas de gestão de dados, garantindo que todos os membros da equipa estejam atualizados e capacitados para lidar com os desafios associados à gestão de grandes volumes de dados.

TRÊS DESAFIOS FUTUROS

Visualização e Análise de Dados

Um dos desafios futuros mais prementes é desenvolver ferramentas que permitam a visualização e análise estatística básica dos dados diretamente no site onde a base de dados está partilhada. Isso facilitará a utilização dos dados por diferentes stakeholders sem comprometer a flexibilidade necessária para análises mais complexas. A criação de interfaces intuitivas e acessíveis para a visualização de dados é essencial para maximizar o valor dos dados recolhidos e promover a colaboração entre diferentes áreas de pesquisa.
 

Motivação da Equipa, mudança de mentalidade e organização do tempo

É imprescindível motivar a equipa a focar-se não apenas na aquisição e análise inicial dos dados, mas também na partilha e estruturação dos dados de forma que possam ser amplamente utilizados no futuro. 

Isso requer uma mudança de mentalidade e uma melhor gestão do tempo, promovendo uma cultura de colaboração e partilha de conhecimento. Cabe ao investigador principal, também, incentivar a equipa a ver o valor a longo prazo da organização e partilha de dados para o sucesso contínuo do projeto. 

Sustentabilidade dos Repositórios de Dados

Garantir a sustentabilidade dos repositórios de dados a longo prazo é um desafio crítico! 

É necessário desenvolver políticas e estratégias robustas para preservar os dados ao longo do tempo, evitando a perda de informação valiosa devido a mudanças políticas ou tecnológicas. A implementação de práticas de arquivo e backup, bem como a busca por financiamento contínuo, são essenciais para a manutenção da integridade dos dados. A sustentabilidade dos repositórios de dados assegura que a informação recolhida permaneça acessível e útils para futuras gerações de investigadores. 

CINCO QUESTÕES SOBRE GDI

Como define, implementa e avalia as práticas de gestão de dados de investigação?

As práticas são definidas com base em princípios FAIR, implementadas através de templates de DMPs (Data Management Plans) e ferramentas de repositório, e avaliadas com checklists internas e feedback dos parceiros. 

Na página web onde os dados poderão ser acedidos irão existir ferramentas de visualização com possibilidade de análise em pequena escala (testes estatísticos, etc…) e os stakeholders terão possibilidade de visualizar estatísticas de utilização dos dados.

Quais os principais benefícios dessas práticas?

Estas práticas permitem a preservação a longo prazo dos dados, facilitam colaborações internacionais e aumentam o impacto e reutilização dos resultados, bem como a possibilidade de maior número de citações para os autores dos dados.

Em que medida a gestão de dados de investigação contribui para a otimização do processo de investigação?

Os ganhos são evidentes e extensos, mas podem sistematizar-se no contributo para uma investigação mais eficiente, com dados bem organizados e documentados desde o início,  resultando assim numa redução de  erros e duplicações.

Que vantagens e condicionantes aponta na partilha de dados de investigação?

As principais vantagens são a reprodutibilidade e impacto que a partilha de dados de investigação proporciona. 

As condicionantes centram-se na a sensibilidade inerente a alguns dados e os recursos necessários para curadoria e anonimização, sem sempre existentes em quantidade suficiente.

De que forma os diferentes atores envolvidos no processo de investigação estão comprometidos com a gestão de dados de investigação?

Os investigadores seniores e técnicos já trabalham com a gestão de dados de investigação há muito tempo e, em projetos, de grande envergadura, com parceiros externos, estão fortemente comprometidos com a aplicação das melhores práticas.

Contudo, é necessário que haja um maior envolvimento de estudantes e colaboradores menos experientes. E a formação contínua é, aqui, um aspeto essencial.

Como utiliza a física fundamental dados de investigação? 

Porque é tão relevante a precisão dos dados? 

Quais as preocupações dos investigadores com os metadados?

Sem formação adequada existem boas práticas?

PROJETO

Ultra-high-accuracy X-ray spectroscopy of transition metal oxides and rare earths

 

ENTIDADES

INVESTIGADOR
ENTREVISTADO

O INVESTIGADOR
RESPONDE

(Vídeo disponível em breve) 


CINCO QUESTÕES SOBRE GDI

Domínios

Ciências naturais

Engenharia e tecnologia

Etapas do ciclo de vida dos dados

Planeamento

Preservação

DATA DE RECOLHA

Maio de 2025

Descarregue versão pdf

(disponível em breve)

DESCRIÇÃO

O projeto SAIL – Space-Atmosphere-Ocean Interactions in the marine boundary Layer é, por definição, um projeto centrado na recolha de dados científicos, fundamental para a compreensão das interações entre a radiação proveniente do espaço e a atmosfera terrestre, desenvolvido em ambiente oceânico.

A investigação centra-se na medição, através de instrumentos de precisão e da aplicação de tecnologia avançada, do campo electro-atmosférico — um fenómeno que se encontra sempre presente na natureza, mesmo em tempo seco e sem trovoada —, e que é particularmente difícil de medir em terra. Esta variável é um importante indicador global do clima terrestre, especialmente num contexto das alterações climáticas globais.

A iniciativa surgiu de forma inusitada e colaborativa, aproveitando a viagem de circum-navegação do navio-escola Sagres em 2020, que ofereceu uma oportunidade inédita para integrar ciência a bordo, permitindo a recolha de dados em locais remotos e de difícil acesso.

Historicamente, foram realizadas campanhas semelhantes no início do século XX, com destaque para os dados obtidos por cientistas britânicos entre 1907 e 1920, a bordo do navio Carnegie. Contudo, desde essa época, o campo elétrico não voltou a ser medido de forma sistemática, em contexto marítimo.

Devido às suas características únicas e à sua relevância do ponto de vista climático, bem como ao volume de dados cuja análise pode prolongar-se por muitos anos, o projeto tem como objetivo imediato a recolha, documentação e preservação, mas também a partilha sistemática de dados de forma a que outros investigadores possam usá-los, existindo um compromisso evidente do projeto com a Ciência Aberta.

TRÊS LIÇÕES APRENDIDAS

Tratando-se de um projeto com enfoque nos dados, todas as ações que permitiram aprender a estruturar dados com vista à sua partilha imediata foram fulcrais.

O Plano de Gestão de Dados (PGD) como documento vivo e estruturante

Ao contrário do que é habitual em muitos projetos, o PGD do SAIL foi elaborado antes do início da campanha. Essa antecipação revelou-se essencial, não apenas como formalidade, mas principalmente como uma ferramenta de trabalho dinâmica, constantemente atualizada. Na realidade, tornou-se uma espécie de pré-data paper, facilitando não só o acesso aos dados, como também a sua interpretação e reutilização.

Um repositório adequado para cada processo de dados

A necessidade de lidar com versões múltiplas de datasets em constante atualização exigiu a adoção de um sistema de repositório robusto e com possibilidade de versionamento. 

A experiência com CKAN, embora útil, mostrou limitações na gestão de dados em evolução, reforçando a necessidade de ferramentas que acompanhem a mutabilidade e a complexidade dos dados. 

O Zenodo demonstrou ser uma opção adequada num processo de investigação altamente dinâmico.

O valor dos dados não estruturados e da observação informal

A ausência de registos não instrumentados — como observações visuais, contextos ambientais ou acontecimentos inesperados — evidenciou uma lacuna crítica: o que atualmente existe em termos tecnológicos é exponencial no que se refere ao conhecimento gerado, mas tende a deixar de lado um manancial de dados circunstanciais, assumidamente difíceis de sistematizar. Por exemplo, informações como relâmpagos observados no decurso das expedições, mas não anotados pelos instrumentos, provaram que a informalidade pode ser científica e necessária.

Contudo, é necessário conseguir soluções para a recolha, registo e partilha destes dados de investigação, equilibrando a sofisticação contemporânea com o valor do registo qualitativo do passado.

TRÊS DESAFIOS FUTUROS

Volume e preservação de dados

Com uma produção de cerca de 10 GB por dia, o projeto enfrenta um desafio significativo no que diz respeito à curadoria e seleção dos dados a serem mantidos a longo prazo. A premissa inicial tem sido a de preservar todos os dados recolhidos, com a justificação de que informações que atualmente podem parecer irrelevantes podem tornar-se cruciais para futuras investigações. 
No entanto, o projeto revelou que esta abordagem de armazenamento indiscriminado é insustentável a longo prazo, tanto em termos de capacidade de storage quanto de eficiência na gestão dos dados, pelo que a questão sobre que datasets preservar é um tema emergente – e, sem dúvida, complexo – neste caso.
 

Organização e partição dos dados

A organização e partição dos dados de um projeto científico de longa duração, especialmente aqueles que se estendem por vários anos e abrangem múltiplas localizações geográficas, é um desafio igualmente complexo que requer uma abordagem meticulosa e sistemática. A distribuição e estruturação eficazes dos dados são essenciais para garantir o acesso por outros investigadores e a sua reutilização.

Uma das primeiras considerações na organização dos dados é a escolha do critério de partição. Existem várias abordagens possíveis, cada uma com suas vantagens e desvantagens.  

A organização por viagens, por exemplo, pode ser útil para projetos que envolvem expedições a diferentes locais, como é o caso. Esta abordagem permite agrupar os dados recolhidos durante cada viagem, facilitando a análise temporal e espacial dos resultados. No entanto, pode tornar-se confusa quando as viagens são frequentes.

Outra abordagem é a organização por datas. Esta metodologia é particularmente útil para uma análise cronológica detalhada, permitindo rastrear mudanças e tendências ao longo do tempo. No entanto, a simples organização por datas pode não ser suficiente para quando se envolvem múltiplas variáveis e localizações, necessitando de uma estrutura adicional para evitar a fragmentação dos dados.

A organização por áreas geográficas é outra opção viável, especialmente quando se abordam múltiplos ecossistemas, facilitando a comparação entre diferentes locais e a identificação de padrões espaciais. No entanto, pode ser menos eficaz para a análise temporal.

Entre organizar por viagens, datas ou áreas geográficas, a preocupação é evitar estruturas confusas para futuros utilizadores.

Garantir a reutilização efetiva dos dados partilhados

Partilhar dados não significa torná-los automaticamente úteis para outros investigadores e projetos. É necessário contextualizá-los, garantir a presença de metadados significativos e disponibilizar documentos auxiliares como o PGD para que a reutilização seja real e produtiva.

Estes elementos são essenciais, contribuindo para o avanço do conhecimento científico e a promoção de uma cultura de colaboração e transparência na Ciência.

CINCO QUESTÕES SOBRE GDI

Como define, implementa e avalia as práticas de gestão de dados de investigação?

As práticas de gestão de dados de investigação foram definidas num momento muito precoce do projeto. Desde o início, o PGD não foi considerado documento de arquivo, de satisfação das exigências dos financiadores, mas sim uma ferramenta ativa, estruturante e refletora das alterações do próprio projeto. A sua implementação exigiu tempo, trabalho e múltiplas versões, mas tornou-se um pilar científico tão importante quanto a recolha de dados em si. Por outro lado, o versionamento foi ele próprio um elemento que possibilitou avaliação do processo.

Quais os principais benefícios dessas práticas?

Apesar das práticas baseadas no PGD serem trabalhosas, os benefícios são evidentes: maior organização, partilha mais eficaz e potencial para reutilização científica por terceiros. No entanto, reconhece-se que mesmo com cuidados extremos, falhas acontecem — mas estas podem ser corrigidas se a gestão de dados for bem documentada e aberta.

Em que medida a gestão de dados de investigação contribui para a otimização do processo de investigação?

No contexto do SAIL, a gestão de dados não é uma otimização, é a própria investigação! Recolher, tratar, documentar e partilhar dados é parte do método científico e não uma tarefa auxiliar. Tal como a redação de um artigo exige reinterpretação dos dados, a sua gestão é um processo contínuo de análise, reflexão e estruturação.

Que vantagens e condicionantes aponta na partilha de dados de investigação?

As vantagens da partilha são inegáveis! Num projeto com esta dimensão, a dificuldade de analisar os dados e de elaborar produtos científicos com os seus resultados é real.

Nem sempre, no contexto científico, a partilha é vista com bons olhos, mas se os dados não forem partilhados, corre-se o risco de ficarem, longos anos, sem uso, condicionando o progresso científico nesta área de conhecimento. Recorde-se que estes dados têm um carácter único.

Tendo em consideração a tipologia de dados, não existem condicionantes de partilha a salientar.

De que forma os diferentes atores envolvidos no processo de investigação estão comprometidos com a gestão de dados de investigação?

A colaboração com a Marinha foi exemplar na abertura e na valorização da observação — incluindo a não instrumentada. Efetivamente, a Marinha está habituada a partilhar dados – dados muito detalhados e baseados em trabalho de recolha pormenorizado e não automático. O perfil de cooperação que caracteriza estas forças é determinante neste sentido.

Em contraste, em alguns contextos académicos, ainda existe resistência à partilha de dados, ligada à autoria ou à competição entre projetos e investigadores.

Porém, instituições como o INESC TEC demonstram forte envolvimento e competência técnica na área, oferecendo apoio e validação contínuos. 

De que forma o campo electro-magnético interfere no clima terrestre? 

Como medi-lo em contexto oceânico? 

O que fazer aos dados, quando não há possibilidade de estudá-los no contexto do projeto?

Porque é o Plano de Gestão de Dados um documento imprescindível?

PROJETO

SAIL – Space-Atmosphere-Ocean Interactions in the marine boundary Layer


ENTIDADES

INVESTIGADORA
ENTREVISTADA

A INVESTIGADORA
RESPONDE

CINCO QUESTÕES SOBRE GDI

Domínios

Ciências naturais

Engenharia e tecnologia

Etapas do ciclo de vida dos dados

Planeamento

Partilha

DATA DE RECOLHA

Maio de 2025

Descarregue versão pdf

(disponível em breve)