Como equilibrar o cumprimento dos princípios FAIR com a realidade de trabalho dos investigadores?
De que forma o apoio a DMP e a formação interna promovem uma cultura sustentável de gestão de dados?

Como pode a formação ajudar a clarificar a gestão de dados em contextos multidisciplinares?

DESCRIÇÃO

Desde 2013, foram desenvolvidas iniciativas na área da gestão de investigação, numa fase ainda inicial da adoção dos princípios FAIR. Uma das primeiras ações consistiu na avaliação de um protótipo de repositório de dados na Universidade do Porto, que, embora não tenha sido implementado, contribuiu para a consolidação de uma cultura de perceção sobre a importância da gestão de dados. Esta etapa envolveu entrevistas com investigadores e a análise de soluções tecnológicas, promovendo o diálogo entre práticas científicas e infraestruturas digitais.

Posteriormente, foi desenvolvido um projeto de investigação centrado na promoção da adoção de ferramentas de gestão de dados, com especial enfoque na criação de vocabulários que enriquecessem os metadados e permitissem uma caracterização mais detalhada das práticas dos investigadores. Paralelamente, têm sido orientados estudantes na área da gestão da informação, contribuindo para a formação de profissionais capacitados para os desafios da ciência aberta.

Desde 2021, o INESC TEC passou a integrar funções institucionais de apoio à publicação de dados científicos, com base num repositório desenvolvido internamente e gerido segundo critérios alinhados com os princípios FAIR. Esta gestão adota uma abordagem flexível, que reconhece as limitações e necessidades específicas dos investigadores. O apoio à publicação estende-se também a outros repositórios, através da criação de comunidades dedicadas a projetos específicos.

Uma componente central da atividade institucional reside no apoio à elaboração e revisão de Planos de Gestão de Dados (Data Management Plans – DMP), tanto em projetos em curso como em novas iniciativas. Este apoio inclui recomendações técnicas e boas práticas, permitindo que as equipas de investigação se concentrem na produção e análise dos dados, enquanto se assegura a conformidade com os requisitos institucionais e normativos.

Mais recentemente, foi implementada formação sistemática dirigida a investigadores, com o objetivo de reforçar a capacitação interna em gestão de dados e ciência aberta. Estas ações são desenvolvidas pelo serviço de apoio à gestão que, embora não dedicado exclusivamente à ciência aberta, integra competências diversas, incluindo apoio administrativo, gestão de repositórios e arquivos, e produção de indicadores institucionais.

TRÊS LIÇÕES APRENDIDAS

Integração precoce nos projetos

A participação ativa nas reuniões de arranque (kick-off meetings) dos projetos constitui uma oportunidade estratégica para garantir a integração eficaz dos Planos de Gestão de Dados (DMP) desde as fases iniciais. Ao apresentar de forma clara e estruturada os objetivos, requisitos e implicações práticas dos DMP, promove-se não apenas a compreensão partilhada entre os parceiros, mas também o seu envolvimento e compromisso com as boas práticas de gestão e partilha de dados ao longo do ciclo de vida do projeto. Esta abordagem antecipada facilita o alinhamento entre as equipas, previne mal-entendidos futuros e contribui para a consolidação de uma cultura colaborativa e transparente em torno da ciência aberta.

Envolvimento ativo dos investigadores principais (PI) e flexibilidade

A motivação e o compromisso dos PI são determinantes para o sucesso da implementação dos DMP. A flexibilidade é um conceito transversal à gestão de dados. Embora existam requisitos técnicos e normativos obrigatórios — como os princípios FAIR — é essencial adaptar os processos às realidades dos investigadores. A simplificação dos procedimentos e a mediação ativa no depósito de dados são estratégias que visam evitar que os investigadores se sintam sobrecarregados. No INESC TEC, o processo de depósito é mediado. Esta abordagem tem como objetivo não só garantir a qualidade dos dados, mas também fomentar a confiança e a recorrência dos investigadores ao serviço.

Clareza na comunicação

A apresentação direta e objetiva dos requisitos técnicos e das boas práticas facilita a compreensão e adesão por parte dos investigadores, promovendo uma cultura de colaboração e melhoria contínua.

Em contextos de investigação multidisciplinar, a definição pode variar significativamente. As ambiguidades exigem uma abordagem pedagógica e adaptada, que ajude os investigadores a compreender e aplicar corretamente os conceitos de organização e descrição de dados.

Por exemplo, a diversidade de interpretações sobre o que constitui um dataset — desde uma pasta zipada até ficheiros individuais — dificulta a contabilização e a criação de indicadores avançados, como a percentagem de datasets publicados face ao número de artigos científicos.

TRÊS DESAFIOS FUTUROS

Disseminação do serviço em termos institucionais

Um dos principais desafios prende-se com a dificuldade em garantir que todos os investigadores têm conhecimento sobre os serviços de apoio à gestão de dados. Numa instituição extensa e distribuída como o INESC TEC, com múltiplos centros e polos geográficos, é complexo assegurar uma comunicação eficaz e uma presença transversal. Muitos investigadores acabam por publicar dados por iniciativa própria, em resposta a exigências editoriais, sem recorrer ao serviço institucional. Esta prática, embora legítima, pode comprometer a qualidade dos depósitos e dificultar a uniformização das boas práticas.

Equilíbrio entre rigor e flexibilidade

A publicação de dados exige conformidade com critérios técnicos e normativos, mas também sensibilidade às realidades dos investigadores. Defende-se uma abordagem equilibrada que permita o cumprimento dos princípios FAIR sem comprometer a viabilidade da partilha de dados.

Integração dos serviços nas práticas dos investigadores

Nem todos os investigadores recorrem ao serviço de gestão de dados, muitas vezes por desconhecimento ou por exigências editoriais que surgem no momento da publicação. Este desafio reforça a necessidade de tornar o serviço mais visível e acessível, promovendo uma cultura de colaboração desde as fases iniciais dos projetos.

Garantir a implementação das boas práticas desde o início dos projetos — desde o momento em que os dados são gerados e armazenados — é fundamental para assegurar a qualidade e a conformidade com os princípios FAIR.

A formação dos investigadores é essencial, mas enfrenta desafios de disponibilidade e adesão. É necessário um esforço contínuo para chegar às pessoas e promover sessões de capacitação que reforcem o conhecimento técnico necessário para uma gestão de dados eficaz. A compreensão da importância dos metadados e do nível de detalhe exigido na descrição dos dados é um exemplo claro da necessidade de formação especializada e contextualizada.

CINCO QUESTÕES SOBRE GDI

Como define, implementa e avalia as práticas de gestão de dados de investigação?

No INESC TEC, a partir deste serviço que apoia os investigadores, todo o processo de depósito é mediado. É realizada uma recolha de metadados e complementada a informação, garantido – o mais possível – a qualidade e conformidade com os princípios FAIR.

Desde o início dos projetos, são realizadas reuniões de arranque onde se apresentam os requisitos dos Planos de Gestão de Dados (DMP). É partilhada uma ficha de recolha de informação que serve de base para a elaboração dos DMP, adaptados às práticas internas e orientados para os investigadores.

O serviço não se limita aos dados do INESC TEC, mas também apoia projetos em que a instituição é parceira. Muitas vezes, os dados são recolhidos por outras entidades e integrados em comunidades específicas criadas para cada projeto.

Foi implementado um curso interno certificado, com duas manhãs dedicadas à gestão de dados de investigação, dirigido sobretudo a estudantes de doutoramento, mas aberto a outros públicos. Estão previstas duas edições por ano.

A necessidade de escalar processos com recursos limitados levou à exploração de ferramentas de inteligência artificial. A Inteligência Artificial tem potencial  para automatizar tarefas como o preenchimento de templates de DMP e o versionamento de ficheiros, embora sejam reconhecidas limitações atuais e salientada a importância de uma integração ética e eficaz.

Em centros de investigação, há práticas informais de armazenamento de dados em servidores partilhados. A intervenção do serviço desde o início do ciclo de vida dos dados pode evitar duplicações e promover o versionamento adequado, facilitando a posterior publicação e reutilização.

Quais os principais benefícios dessas práticas?

Um dos principais benefícios identificados é a criação de templates orientadores que facilitam a compreensão e o preenchimento dos Planos de Gestão de Dados (DMP). Estes modelos não se limitam a reproduzir os formatos oficiais dos financiadores, mas são adaptados às práticas institucionais e à linguagem dos investigadores. Esta abordagem reduz o esforço exigido aos investigadores, evita respostas genéricas ou sem significado, promove uma descrição mais rica e útil dos dados e facilita a consulta posterior por colegas e parceiros.

A mediação não se limita ao apoio técnico, mas envolve uma recolha estruturada de informação e uma simplificação pragmática das exigências, tornando o processo mais acessível e eficaz.

Por outro lado, a prática de documentar datasets publicados nos DMP permite reconhecer e promover os contributos específicos de cada investigador. Esta valorização gera motivação e reforça o envolvimento dos investigadores no processo de gestão de dados, tendo até um efeito multiplicador que contribui para aumentar a adesão às práticas de partilha de dados, promover uma cultura de transparência e colaboração e estimular o sentido de pertença dos investigadores.

Em que medida a gestão de dados de investigação contribui para a otimização do processo de investigação?

Os DMP bem estruturados ajudam a clarificar com que dados se está a trabalhar, onde estão armazenados e como podem ser acedidos. Esta organização interna facilita a comunicação entre parceiros de projeto, a reutilização de dados já existentes e a criação de comunidades de prática em torno dos dados.

A partilha de dados não se limita à disponibilização técnica, mas envolve também a partilha de contexto — apresentações, bibliografia, documentação — que enriquece a compreensão e o uso dos datasets. Quando bem comunicadas, estas práticas são valorizadas pelos investigadores e contribuem para a eficiência e qualidade da investigação.

Que vantagens e condicionantes aponta na partilha de dados de investigação?

Apesar das vantagens evidentes da partilha de dados — como a transparência, reutilização e colaboração — existem condicionantes significativas, sobretudo em áreas como a bioengenharia e em projetos com empresas, onde há acordos de confidencialidade e dados sensíveis. Para mitigar essas limitações, podem ser adotadas estratégias como a disponibilização de metadados detalhados, a partilha de amostras representativas dos dados ou a criação de guias para pedidos de acesso, permitindo uma avaliação caso a caso.

Estas práticas procuram equilibrar a proteção da informação com a abertura científica, promovendo uma cultura de partilha responsável.

De que forma os diferentes atores envolvidos no processo de investigação estão comprometidos com a gestão de dados de investigação?

O envolvimento dos diversos atores — investigadores, responsáveis de projeto, serviços de apoio — está cada vez mais consolidado. Embora o desafio da escalabilidade persista, há uma maturidade crescente na forma como a gestão de dados é integrada nos projetos.

A mediação eficaz, a formação contínua e o reconhecimento dos contributos individuais são fatores que reforçam esse compromisso. O serviço atua como facilitador, promovendo práticas que são valorizadas tanto internamente como por parceiros e avaliadores externos.

Que impacto têm os tratamentos por radiofrequência e ambiente controlado na qualidade dos alimentos?
Que papel desempenham os metadados na rastreabilidade e integração de dados experimentais?
Quais são os benefícios de automatizar a recolha e integração de dados em tempo real?
De que forma a conformidade com os princípios FAIR facilita a colaboração entre instituições e a reutilização dos dados?

DESCRIÇÃO

O projeto VIIA Food investiga a qualidade, segurança e eficiência do processamento alimentar com tratamentos inovadores e sob condições ambientais controladas. 

O subprojeto de radiofrequência (RF) avalia os efeitos do aquecimento eletromagnético em matrizes alimentares (nomeadamente castanhas), com foco na retenção de nutrientes, inativação microbiana e alterações físico-químicas. O subprojeto das câmaras de ambiente controlado (CACs) estuda o impacto de regimes precisos de temperatura, humidade e luz no armazenamento e maturação de alimentos.

Os dados recolhidos incluem registos de sensores (temperatura, humidade, entre outros), análises da composição química, avaliações microbiológicas e métricas de qualidade. A gestão de dados abrange protocolos padronizados de aquisição, registo de metadados, integração de conjuntos de dados heterogéneos e conformidade com os princípios FAIR, garantindo a reprodutibilidade e a reutilização futura.

A colaboração interdisciplinar entre engenheiros alimentares, microbiologistas e cientistas de dados é essencial para uma interpretação fiável e uma análise abrangente.

TRÊS LIÇÕES APRENDIDAS

Padronização de dispositivos e protocolos

A padronização de dispositivos e protocolos é essencial para garantir a qualidade e a comparabilidade dos dados. Durante a implementação dos subprojetos de tratamentos por radiofrequência (RF) e câmaras de ambiente controlado (CACs), verificou-se que a diversidade de equipamentos e metodologias poderia comprometer a consistência dos resultados. A harmonização dos protocolos de aquisição, calibração e registo de dados revelou-se fundamental para assegurar que os dados recolhidos fossem comparáveis entre diferentes dispositivos e contextos experimentais. Esta padronização permitiu a realização de análises estatísticas robustas e válidas, minimizando variações indesejadas e aumentando a fiabilidade dos resultados. Além disso, facilitou a integração de dados entre subprojetos, promovendo uma abordagem mais coesa e interdisciplinar à investigação.

Captura de metadados como garantia de preservação

A captura abrangente e sistemática de metadados é indispensável para preservar a integridade da informação e garantir a rastreabilidade. A experiência demonstrou que a documentação detalhada de todos os parâmetros experimentais — incluindo dados de calibração, configurações dos sensores, condições ambientais e marcações temporais — é essencial para evitar perdas de informação e assegurar a reprodutibilidade dos resultados. A ausência de metadados completos pode dificultar a interpretação dos dados, comprometer a integração entre subprojetos e limitar a reutilização futura. Ao adotar modelos padronizados de metadados e assegurar o seu preenchimento sistemático, foi possível manter um registo claro e auditável de todas as etapas experimentais, facilitando a validação cruzada e o alinhamento entre equipas.

Planeamento antecipado como chave para o sucesso

O planeamento antecipado da gestão de dados é um fator determinante para o sucesso da colaboração interdisciplinar. A definição de planos de gestão de dados antes do início das atividades experimentais revelou-se uma prática estratégica que contribuiu significativamente para a eficiência do projeto. Este planeamento prévio permitiu estabelecer convenções claras de nomeação de ficheiros, definir estruturas de armazenamento e partilha, e antecipar necessidades específicas de integração entre áreas científicas distintas. Como resultado, foram reduzidos erros operacionais, evitadas duplicações de esforço e promovida uma comunicação mais fluida entre engenheiros alimentares, microbiologistas e cientistas de dados. 

TRÊS DESAFIOS FUTUROS

Integração de dados em tempo real 

A integração de dados em tempo real é essencial para a otimização da análise e a redução de esforço manual. A crescente complexidade dos sistemas de recolha de dados nos subprojetos de radiofrequência (RF) e câmaras de ambiente controlado (CACs) exige a implementação de pipelines automatizados que permitam a recolha, limpeza e integração em tempo real dos dados gerados pelos sensores. Esta abordagem visa eliminar etapas manuais suscetíveis a erros, acelerar o processamento e permitir uma análise mais ágil e responsiva. A automatização dos fluxos de dados facilita a deteção precoce de padrões, a adaptação dinâmica dos parâmetros experimentais e a tomada de decisões informadas durante o próprio processo de investigação. Para tal, será necessário desenvolver infraestruturas digitais robustas, capazes de lidar com dados de alta frequência e de integrar múltiplas fontes de forma eficiente e segura.

Armazenamento sustentável e acessibilidade prolongada de grandes volumes de dados experimentais 

Os dados recolhidos por sensores RF e CACs, especialmente em medições contínuas ou de alta resolução temporal, geram volumes significativos de informação que devem ser preservados de forma estruturada e acessível. A garantia de armazenamento a longo prazo implica não apenas a utilização de repositórios seguros e escaláveis, mas também a documentação rigorosa dos dados e metadados associados, assegurando a sua interpretabilidade futura. A adoção de estratégias de preservação digital, incluindo formatos duráveis, controlo de versões e políticas de backup, é essencial para que os dados permaneçam disponíveis para reanálise, validação ou reutilização em novos contextos científicos. Este desafio é particularmente relevante para projetos que visam contribuir para a ciência aberta e para a construção de bases de conhecimento partilhadas.

Melhoria da interoperabilidade e promoção da reutilização externa através da adoção de padrões comunitários 

Para que os dados gerados no âmbito do projeto VIIA Food possam ser reutilizados por investigadores externos e integrados em iniciativas colaborativas interinstitucionais, é fundamental alinhar os formatos de dados e os modelos de metadados com os padrões reconhecidos pela comunidade científica. A interoperabilidade não se limita à compatibilidade técnica entre sistemas, mas envolve também a clareza semântica dos dados, a adoção de vocabulários controlados e a conformidade com princípios como os FAIR. Este alinhamento facilita a partilha responsável, a integração em plataformas de dados abertas e a realização de análises secundárias que ampliem o impacto da investigação. A promoção da reutilização externa exige, portanto, um compromisso contínuo com a qualidade, a transparência e a normalização dos dados produzidos.

CINCO QUESTÕES SOBRE GDI

Como define, implementa e avalia as práticas de gestão de dados de investigação?

As práticas de gestão de dados de investigação são definidas através de protocolos abrangentes para medições RF e CACs, incluindo desenhos experimentais detalhados, procedimentos de calibração e modelos padronizados de metadados. A implementação envolve entrada estruturada de dados em folhas de cálculo, controlo de versões para dados brutos e processados, registo sistemático de calibrações e configurações de sensores, e validação cruzada regular entre subprojetos. Todos os conjuntos de dados, análises e código são armazenados em repositórios pessoais para garantir a preservação segura a longo prazo. A avaliação é realizada por meio de testes de reprodutibilidade, auditorias internas e monitorização contínua da conformidade com os princípios FAIR. Esta abordagem iterativa assegura a integridade, acessibilidade e usabilidade dos dados ao longo do ciclo de vida do projeto.

Quais os principais benefícios dessas práticas?

Estas práticas garantem dados de alta qualidade e consistência entre experiências e subprojetos, facilitando a reprodutibilidade e permitindo conclusões científicas robustas. Promovem a colaboração interdisciplinar ao tornar os conjuntos de dados, metadados e código facilmente compreensíveis e acessíveis a todos os membros da equipa. O armazenamento em repositórios assegura a disponibilidade a longo prazo, apoia iniciativas de ciência aberta e permite que investigadores externos acedam, verifiquem ou desenvolvam trabalhos com base nos dados existentes. Em última instância, estas práticas aumentam a transparência, o impacto da investigação e a possibilidade de reutilização futura dos dados recolhidos em novos estudos ou meta-análises.

Em que medida a gestão de dados de investigação contribui para a otimização do processo de investigação?

Uma gestão de dados de investigação eficaz facilita a integração de conjuntos de dados heterogéneos provenientes de múltiplos subprojetos, reduzindo redundâncias e minimizando erros. Dados estruturados, metadados completos e análises com controlo de versões aceleram a interpretação e a elaboração de relatórios, apoiando decisões rápidas e o desenho experimental adaptativo. Ao garantir que todos os dados, scripts de processamento e pipelines analíticos estão consistentemente documentados e armazenados em repositórios, os investigadores podem reproduzir resultados, resolver problemas e transferir conhecimento de forma eficiente entre equipas. Esta abordagem sistemática reduz o risco de perda de dados e melhora a eficiência global da investigação.

Que vantagens e condicionantes aponta na partilha de dados de investigação?

As vantagens da partilha de dados são significativas: permite a validação independente de resultados, fomenta a colaboração entre instituições e disciplinas, aumenta o impacto científico e está alinhada com os mandatos de ciência aberta de financiadores e editores. A partilha também promove a transparência e permite que outros investigadores reutilizem conjuntos de dados e ferramentas analíticas em novos contextos. 

As limitações incluem a natureza proprietária de alguns protocolos RF, o elevado volume e frequência dos dados dos sensores, e a necessidade de fornecer metadados completos e padronizados para garantir a interpretabilidade. No entanto, o armazenamento estruturado de dados, código e documentação em repositórios ajuda a mitigar estas limitações, oferecendo um enquadramento responsável para a partilha.

De que forma os diferentes atores envolvidos no processo de investigação estão comprometidos com a gestão de dados de investigação?

Investigadores juniores supervisionam o desenho experimental, asseguram a qualidade dos dados recolhidos, documentam o código e validam os metadados. Estudantes de doutoramento mantêm os registos de aquisição de dados, calibração e sensores, contribuindo também para a entrada de dados e o cumprimento das convenções de nomeação. A equipa garante que os dados são abertos, transparentes e reutilizáveis.

Como equilibrar o acesso aberto com a proteção de dados pessoais sensíveis na investigação científica?

Por que o exercício de proteção de dados é considerado valioso mesmo quando não há riscos evidentes?

Que fatores contribuem para a subvalorização dos riscos na partilha de dados por investigadores/as?

Como uma licença “Para o Bem Maior” poderia transformar a reutilização de dados científicos?

DESCRIÇÃO

No contexto da Universidade da Beira Interior (UBI), é destacado o projeto C4MSSData@UBI – Centro para a Gestão e Partilha Segura de Dados de Investigação, como uma iniciativa recente que tem contribuído significativamente para a consolidação das práticas de gestão de dados de investigação. 

Contudo, a evolução destas práticas na UBI resulta também de um percurso institucional sustentado ao longo dos últimos anos, com especial incidência nas áreas da ética e da proteção de dados, no âmbito do qual são identificáveis três boas práticas:

Requisitos Éticos para Divulgação de Projetos
Desde há mais de oito anos, encontra-se instituída na UBI a obrigatoriedade de obtenção de parecer da Comissão de Ética para a divulgação de pedidos de participação em projetos de investigação. Esta medida antecipa e acompanha práticas atualmente adotadas por diversas instituições de ensino superior e investigação, reforçando o compromisso com a integridade científica e a proteção dos participantes.

Articulação entre Ética e Proteção de Dados
Verifica-se uma articulação eficaz entre a Comissão de Ética e o Gabinete de Cibersegurança e Proteção de Dados. Esta colaboração traduz-se, por exemplo, na exigência de Avaliações de Impacto sobre a Proteção de Dados (AIPD) para determinados pedidos de parecer e projetos submetidos à Comissão de Ética. Em sentido inverso, o Encarregado da Proteção de Dados pode solicitar pareceres éticos para projetos que lhe são apresentados, promovendo uma abordagem integrada e coerente entre os domínios da ética e da proteção de dados.

Automatização Parcial no Processamento de AIPD
O processo de tramitação das declarações de AIPD inclui uma fase inicial semi-automatizada. As respostas inseridas num questionário digital são transformadas automaticamente em documentos nos formatos DOCX e PDF, os quais são enviados para o/a proponente e para o Encarregado da Proteção de Dados. Este procedimento visa facilitar a revisão, melhoria e eventual emissão de parecer, promovendo eficiência e rastreabilidade documental.

TRÊS LIÇÕES APRENDIDAS

A experiência acumulada na interseção entre acesso aberto, partilha de dados e proteção de dados tem revelado um conjunto de aprendizagens relevantes para a prática científica e para a definição de políticas institucionais. Destacam-se, em particular, três lições fundamentais:

Tensão entre Acesso Aberto e Proteção de Dados
A conciliação entre os princípios do acesso aberto, a promoção da partilha de dados e o cumprimento das exigências legais e éticas da proteção de dados revela-se complexa e, por vezes, contraditória. A coexistência destes objetivos exige um equilíbrio delicado, frequentemente difícil de alcançar, sobretudo em contextos que envolvem dados pessoais sensíveis.

Valor Intrínseco do Exercício de Proteção de Dados
Independentemente da necessidade efetiva de anonimização ou de outras medidas de mitigação, o exercício de análise e reflexão sobre a proteção de dados constitui, por si só, uma prática valiosa. Este processo funciona como mecanismo de consciencialização e permite, em muitos casos, identificar vulnerabilidades ou riscos que, de outro modo, poderiam passar despercebidos. Assim, a proteção de dados assume também um papel preventivo e educativo no ciclo de vida da investigação.

Perceções Limitadas sobre Riscos na Investigação Científica
A investigação científica, sendo geralmente orientada por motivações altruístas e de benefício coletivo, tende a desvalorizar os riscos associados à recolha, tratamento e partilha de dados. É comum que investigadores/as, focados/as na prossecução de um bem maior — como a cura de uma doença —, não compreendam as restrições ao acesso imediato a dados pessoais, nem antecipem os potenciais impactos negativos da sua partilha. Parte desta perceção resulta da suposição de que todos os intervenientes partilham os mesmos objetivos éticos. A inexistência de mecanismos legais que permitam condicionar a reutilização de dados exclusivamente a fins de interesse público — como seria o caso de uma hipotética licença “Para o Bem Maior” (PBM) — constitui uma lacuna sentida neste domínio.

TRÊS DESAFIOS FUTUROS

A evolução tecnológica e o crescimento exponencial da produção científica têm trazido novos desafios à gestão de dados de investigação. Destacam-se, neste contexto, três áreas críticas que exigem atenção e desenvolvimento de boas práticas:

Escalabilidade e Eficiência na Gestão de Grandes Conjuntos de Dados
O aumento significativo do volume de dados digitais, potenciado por avanços tecnológicos, tem permitido a construção de conjuntos de dados mais abrangentes e representativos, com benefícios evidentes para a robustez das conclusões científicas. No entanto, este crescimento acarreta desafios técnicos e logísticos, nomeadamente no que respeita ao armazenamento, ao acesso e à transmissão segura e eficiente desses dados.


Consciencialização Ética e Segurança na Era da Digitalização
A digitalização generalizada tem facilitado o acesso a dados, mas também pode ter contribuído para a diluição de certos mecanismos de controlo ético e de senso comum. Torna-se, por isso, essencial reforçar a consciencialização sobre os princípios éticos associados ao acesso, recolha, tratamento e partilha de dados, bem como sobre os requisitos de segurança que devem acompanhar todas as fases do seu ciclo de vida.


Autenticidade e Integridade dos Dados em Contextos de Inteligência Artificial
A crescente valorização da citação de dados como métrica de impacto pode incentivar, em alguns casos, a criação e disseminação de conjuntos de dados fictícios ou pouco rigorosos. Este fenómeno, já observado na publicação científica, tende a intensificar-se com o uso de inteligência artificial generativa. Embora tal risco seja mitigado em ambientes institucionais com práticas consolidadas e confiança nos investigadores, representa um desafio relevante para projetos que recorrem a dados disponíveis publicamente na Internet, exigindo mecanismos de verificação e validação mais robustos.

CINCO QUESTÕES SOBRE GDI

Como define, implementa e avalia as práticas de gestão de dados de investigação?

A definição e implementação das práticas de gestão de dados de investigação têm ocorrido de forma gradual e adaptativa, refletindo o dinamismo e a complexidade crescente deste domínio. Em muitos casos, as ações desenvolvidas são pontuais ou reativas, surgindo em resposta a situações específicas ou como alinhamento com orientações externas. A maioria dos documentos institucionais que regulam estas práticas são classificados como “documentos de trabalho” ou “em atualização”, assumindo a necessidade de revisão contínua.
Apesar da existência de esforços para estabelecer normas estáveis e duradouras, verifica-se que a adoção de metodologias ágeis e iterativas pode ser mais eficaz na atualidade, mesmo que introduza alguma instabilidade inicial. A gestão de dados de investigação beneficia particularmente desta abordagem, permitindo maior flexibilidade e adaptação às exigências emergentes.

Quais os principais benefícios dessas práticas?

A implementação sistemática de práticas de gestão de dados de investigação contribui para aumentar a confiança no ecossistema científico.  A interação entre investigadores/as e entidades institucionais (orientadores, comissões de ética, gabinetes de proteção de dados) promove uma reflexão aprofundada sobre os projetos desde as suas fases iniciais.
Por outro lado, permite uma melhor estruturação dos projetos, dado que as práticas de gestão induzem maior organização e planeamento, favorecendo a qualidade e a rastreabilidade dos processos científicos.
E possibilita ainda consciencialização sobre boas práticas, uma vez que a gestão de dados estimula a adoção de medidas associadas à proteção de dados, à documentação e à reutilização responsável.

Em que medida a gestão de dados de investigação contribui para a otimização do processo de investigação?

A gestão de dados de investigação otimiza o processo científico em diferentes fases:

Para quem utiliza os dados: Dados bem geridos estão prontos a usar, com mínima necessidade de transformação.

Para quem prepara os dados: Embora as tarefas de enriquecimento e organização possam parecer exigentes inicialmente, revelam-se vantajosas na fase de experimentação e reutilização, reduzindo retrabalho e aumentando a eficiência.

Que vantagens e condicionantes aponta na partilha de dados de investigação?

A partilha de dados de investigação apresenta benefícios e desafios:

Vantagens

Avanço científico: Contribui para o progresso da ciência e para o benefício da sociedade.

Reutilização e atribuição: Potencia o trabalho de quem produz os dados, promovendo a sua citação e valorização.

Condicionantes

Riscos de uso indevido: Possibilidade de utilização maliciosa dos dados, como personificação ou exploração indevida.

Resultados prejudiciais: Investigação baseada em dados partilhados pode, em casos extremos, gerar impactos negativos.

De que forma os diferentes atores envolvidos no processo de investigação estão comprometidos com a gestão de dados de investigação?

A comunidade científica da UBI demonstra crescente envolvimento com a gestão de dados de investigação. Embora o grau de compromisso varie entre atores, observa-se uma preocupação transversal com a melhoria contínua das práticas. Os órgãos de gestão institucional estão investidos na promoção de políticas e infraestruturas que sustentem este compromisso.

Como utiliza a física fundamental dados de investigação? 

Porque é tão relevante a precisão dos dados? 

Quais as preocupações dos investigadores com os metadados?

Sem formação adequada existem boas práticas?

DESCRIÇÃO

O projeto Espectroscopia de raios X de ultra-elevada precisão de óxidos de metais de transição e terras raras corresponde a um estudo aprofundado de física fundamental com amplas aplicações na indústria e em diversas áreas científicas. 

O objetivo principal é a construção de um espectrómetro de precisão para realizar medições extremamente apuradas em condições de matéria extrema, como iões altamente carregados e átomos exóticos. 

Para tal, desenvolve-se uma base de dados abrangente de formas espectrais de óxidos de metais de transição e terras raras,  crucial para a calibração de detetores em observações astronómicas e outras aplicações científicas.

Nesta área de trabalho, é essencial obter dados extremamente precisos que possibilitem a calibração dos instrumentos avançados de medição, tendo em consideração que os elementos que são medidos são assimétricos.

A construção de um espectrómetro com estas características permite aos investigadores autonomia relativamente a laboratórios estrangeiros. 

TRÊS LIÇÕES APRENDIDAS

Idealizar a forma de recolha dos dados

Uma das lições mais importantes aprendidas com este projeto foi a necessidade de dedicar mais tempo à criação de cenários sobre a forma de organização dos dados e a sua forma de partilha. Dada a precisão exigida na recolha, era essencial optar por uma organização dos dados precisa, mas simultaneamente fluída para que os datasets pudessem vir a ser usados em diferentes contextos.

Inicialmente, não foram considerados adequadamente os formatos e a hierarquização dos dados, o que resultou em dificuldades significativas na fase final de partilha. Esta experiência sublinhou a importância de um planeamento meticuloso desde o início do projeto, garantindo que todos os dados sejam estruturados de maneira lógica e acessível.

Normalização dos Metadados

Normalizar os metadados é tão importante para o processo científico quanto o tratamento dos próprios dados e só assim é possível garantir a interoperabilidade entre os diversos stakeholders

A normalização dos metadados assegura que os dados possam ser compreendidos e utilizados de forma eficiente por todos os envolvidos, independentemente de suas áreas de especialização.

A ausência de uma descrição clara e consistente dos metadados obsta à utilização dos dados por outros investigadores, destacando-se a necessidade de estabelecer e aplicar padrões rigorosos de documentação. 

Formação contínua em Gestão de Dados de lnvestigação

A sobrecarga de trabalho e a falta de tempo para formação resultaram em inconsistências na forma como os dados foram geridos e partilhados. Esta lição enfatiza a necessidade de um compromisso contínuo com a cultura da Ciência Aberta e a formação em boas práticas de gestão de dados, garantindo que todos os membros da equipa estejam atualizados e capacitados para lidar com os desafios associados à gestão de grandes volumes de dados.

TRÊS DESAFIOS FUTUROS

Visualização e Análise de Dados

Um dos desafios futuros mais prementes é desenvolver ferramentas que permitam a visualização e análise estatística básica dos dados diretamente no site onde a base de dados está partilhada. Isso facilitará a utilização dos dados por diferentes stakeholders sem comprometer a flexibilidade necessária para análises mais complexas. A criação de interfaces intuitivas e acessíveis para a visualização de dados é essencial para maximizar o valor dos dados recolhidos e promover a colaboração entre diferentes áreas de pesquisa.
 

Motivação da Equipa, mudança de mentalidade e organização do tempo

É imprescindível motivar a equipa a focar-se não apenas na aquisição e análise inicial dos dados, mas também na partilha e estruturação dos dados de forma que possam ser amplamente utilizados no futuro. 

Isso requer uma mudança de mentalidade e uma melhor gestão do tempo, promovendo uma cultura de colaboração e partilha de conhecimento. Cabe ao investigador principal, também, incentivar a equipa a ver o valor a longo prazo da organização e partilha de dados para o sucesso contínuo do projeto. 

Sustentabilidade dos Repositórios de Dados

Garantir a sustentabilidade dos repositórios de dados a longo prazo é um desafio crítico! 

É necessário desenvolver políticas e estratégias robustas para preservar os dados ao longo do tempo, evitando a perda de informação valiosa devido a mudanças políticas ou tecnológicas. A implementação de práticas de arquivo e backup, bem como a busca por financiamento contínuo, são essenciais para a manutenção da integridade dos dados. A sustentabilidade dos repositórios de dados assegura que a informação recolhida permaneça acessível e útils para futuras gerações de investigadores. 

CINCO QUESTÕES SOBRE GDI

Como define, implementa e avalia as práticas de gestão de dados de investigação?

As práticas são definidas com base em princípios FAIR, implementadas através de templates de DMPs (Data Management Plans) e ferramentas de repositório, e avaliadas com checklists internas e feedback dos parceiros. 

Na página web onde os dados poderão ser acedidos irão existir ferramentas de visualização com possibilidade de análise em pequena escala (testes estatísticos, etc…) e os stakeholders terão possibilidade de visualizar estatísticas de utilização dos dados.

Quais os principais benefícios dessas práticas?

Estas práticas permitem a preservação a longo prazo dos dados, facilitam colaborações internacionais e aumentam o impacto e reutilização dos resultados, bem como a possibilidade de maior número de citações para os autores dos dados.

Em que medida a gestão de dados de investigação contribui para a otimização do processo de investigação?

Os ganhos são evidentes e extensos, mas podem sistematizar-se no contributo para uma investigação mais eficiente, com dados bem organizados e documentados desde o início,  resultando assim numa redução de  erros e duplicações.

Que vantagens e condicionantes aponta na partilha de dados de investigação?

As principais vantagens são a reprodutibilidade e impacto que a partilha de dados de investigação proporciona. 

As condicionantes centram-se na a sensibilidade inerente a alguns dados e os recursos necessários para curadoria e anonimização, sem sempre existentes em quantidade suficiente.

De que forma os diferentes atores envolvidos no processo de investigação estão comprometidos com a gestão de dados de investigação?

Os investigadores seniores e técnicos já trabalham com a gestão de dados de investigação há muito tempo e, em projetos, de grande envergadura, com parceiros externos, estão fortemente comprometidos com a aplicação das melhores práticas.

Contudo, é necessário que haja um maior envolvimento de estudantes e colaboradores menos experientes. E a formação contínua é, aqui, um aspeto essencial.

De que forma o campo electro-magnético interfere no clima terrestre? 

Como medi-lo em contexto oceânico? 

O que fazer aos dados, quando não há possibilidade de estudá-los no contexto do projeto?

Porque é o Plano de Gestão de Dados um documento imprescindível?

DESCRIÇÃO

O projeto SAIL – Space-Atmosphere-Ocean Interactions in the marine boundary Layer é, por definição, um projeto centrado na recolha de dados científicos, fundamental para a compreensão das interações entre a radiação proveniente do espaço e a atmosfera terrestre, desenvolvido em ambiente oceânico.

A investigação centra-se na medição, através de instrumentos de precisão e da aplicação de tecnologia avançada, do campo electro-atmosférico — um fenómeno que se encontra sempre presente na natureza, mesmo em tempo seco e sem trovoada —, e que é particularmente difícil de medir em terra. Esta variável é um importante indicador global do clima terrestre, especialmente num contexto das alterações climáticas globais.

A iniciativa surgiu de forma inusitada e colaborativa, aproveitando a viagem de circum-navegação do navio-escola Sagres em 2020, que ofereceu uma oportunidade inédita para integrar ciência a bordo, permitindo a recolha de dados em locais remotos e de difícil acesso.

Historicamente, foram realizadas campanhas semelhantes no início do século XX, com destaque para os dados obtidos por cientistas britânicos entre 1907 e 1920, a bordo do navio Carnegie. Contudo, desde essa época, o campo elétrico não voltou a ser medido de forma sistemática, em contexto marítimo.

Devido às suas características únicas e à sua relevância do ponto de vista climático, bem como ao volume de dados cuja análise pode prolongar-se por muitos anos, o projeto tem como objetivo imediato a recolha, documentação e preservação, mas também a partilha sistemática de dados de forma a que outros investigadores possam usá-los, existindo um compromisso evidente do projeto com a Ciência Aberta.

TRÊS LIÇÕES APRENDIDAS

Tratando-se de um projeto com enfoque nos dados, todas as ações que permitiram aprender a estruturar dados com vista à sua partilha imediata foram fulcrais.

O Plano de Gestão de Dados (PGD) como documento vivo e estruturante

Ao contrário do que é habitual em muitos projetos, o PGD do SAIL foi elaborado antes do início da campanha. Essa antecipação revelou-se essencial, não apenas como formalidade, mas principalmente como uma ferramenta de trabalho dinâmica, constantemente atualizada. Na realidade, tornou-se uma espécie de pré-data paper, facilitando não só o acesso aos dados, como também a sua interpretação e reutilização.

Um repositório adequado para cada processo de dados

A necessidade de lidar com versões múltiplas de datasets em constante atualização exigiu a adoção de um sistema de repositório robusto e com possibilidade de versionamento. 

A experiência com CKAN, embora útil, mostrou limitações na gestão de dados em evolução, reforçando a necessidade de ferramentas que acompanhem a mutabilidade e a complexidade dos dados. 

O Zenodo demonstrou ser uma opção adequada num processo de investigação altamente dinâmico.

O valor dos dados não estruturados e da observação informal

A ausência de registos não instrumentados — como observações visuais, contextos ambientais ou acontecimentos inesperados — evidenciou uma lacuna crítica: o que atualmente existe em termos tecnológicos é exponencial no que se refere ao conhecimento gerado, mas tende a deixar de lado um manancial de dados circunstanciais, assumidamente difíceis de sistematizar. Por exemplo, informações como relâmpagos observados no decurso das expedições, mas não anotados pelos instrumentos, provaram que a informalidade pode ser científica e necessária.

Contudo, é necessário conseguir soluções para a recolha, registo e partilha destes dados de investigação, equilibrando a sofisticação contemporânea com o valor do registo qualitativo do passado.

TRÊS DESAFIOS FUTUROS

Volume e preservação de dados

Com uma produção de cerca de 10 GB por dia, o projeto enfrenta um desafio significativo no que diz respeito à curadoria e seleção dos dados a serem mantidos a longo prazo. A premissa inicial tem sido a de preservar todos os dados recolhidos, com a justificação de que informações que atualmente podem parecer irrelevantes podem tornar-se cruciais para futuras investigações. 
No entanto, o projeto revelou que esta abordagem de armazenamento indiscriminado é insustentável a longo prazo, tanto em termos de capacidade de storage quanto de eficiência na gestão dos dados, pelo que a questão sobre que datasets preservar é um tema emergente – e, sem dúvida, complexo – neste caso.
 

Organização e partição dos dados

A organização e partição dos dados de um projeto científico de longa duração, especialmente aqueles que se estendem por vários anos e abrangem múltiplas localizações geográficas, é um desafio igualmente complexo que requer uma abordagem meticulosa e sistemática. A distribuição e estruturação eficazes dos dados são essenciais para garantir o acesso por outros investigadores e a sua reutilização.

Uma das primeiras considerações na organização dos dados é a escolha do critério de partição. Existem várias abordagens possíveis, cada uma com suas vantagens e desvantagens.  

A organização por viagens, por exemplo, pode ser útil para projetos que envolvem expedições a diferentes locais, como é o caso. Esta abordagem permite agrupar os dados recolhidos durante cada viagem, facilitando a análise temporal e espacial dos resultados. No entanto, pode tornar-se confusa quando as viagens são frequentes.

Outra abordagem é a organização por datas. Esta metodologia é particularmente útil para uma análise cronológica detalhada, permitindo rastrear mudanças e tendências ao longo do tempo. No entanto, a simples organização por datas pode não ser suficiente para quando se envolvem múltiplas variáveis e localizações, necessitando de uma estrutura adicional para evitar a fragmentação dos dados.

A organização por áreas geográficas é outra opção viável, especialmente quando se abordam múltiplos ecossistemas, facilitando a comparação entre diferentes locais e a identificação de padrões espaciais. No entanto, pode ser menos eficaz para a análise temporal.

Entre organizar por viagens, datas ou áreas geográficas, a preocupação é evitar estruturas confusas para futuros utilizadores.

Garantir a reutilização efetiva dos dados partilhados

Partilhar dados não significa torná-los automaticamente úteis para outros investigadores e projetos. É necessário contextualizá-los, garantir a presença de metadados significativos e disponibilizar documentos auxiliares como o PGD para que a reutilização seja real e produtiva.

Estes elementos são essenciais, contribuindo para o avanço do conhecimento científico e a promoção de uma cultura de colaboração e transparência na Ciência.

CINCO QUESTÕES SOBRE GDI

Como define, implementa e avalia as práticas de gestão de dados de investigação?

As práticas de gestão de dados de investigação foram definidas num momento muito precoce do projeto. Desde o início, o PGD não foi considerado documento de arquivo, de satisfação das exigências dos financiadores, mas sim uma ferramenta ativa, estruturante e refletora das alterações do próprio projeto. A sua implementação exigiu tempo, trabalho e múltiplas versões, mas tornou-se um pilar científico tão importante quanto a recolha de dados em si. Por outro lado, o versionamento foi ele próprio um elemento que possibilitou avaliação do processo.

Quais os principais benefícios dessas práticas?

Apesar das práticas baseadas no PGD serem trabalhosas, os benefícios são evidentes: maior organização, partilha mais eficaz e potencial para reutilização científica por terceiros. No entanto, reconhece-se que mesmo com cuidados extremos, falhas acontecem — mas estas podem ser corrigidas se a gestão de dados for bem documentada e aberta.

Em que medida a gestão de dados de investigação contribui para a otimização do processo de investigação?

No contexto do SAIL, a gestão de dados não é uma otimização, é a própria investigação! Recolher, tratar, documentar e partilhar dados é parte do método científico e não uma tarefa auxiliar. Tal como a redação de um artigo exige reinterpretação dos dados, a sua gestão é um processo contínuo de análise, reflexão e estruturação.

Que vantagens e condicionantes aponta na partilha de dados de investigação?

As vantagens da partilha são inegáveis! Num projeto com esta dimensão, a dificuldade de analisar os dados e de elaborar produtos científicos com os seus resultados é real.

Nem sempre, no contexto científico, a partilha é vista com bons olhos, mas se os dados não forem partilhados, corre-se o risco de ficarem, longos anos, sem uso, condicionando o progresso científico nesta área de conhecimento. Recorde-se que estes dados têm um carácter único.

Tendo em consideração a tipologia de dados, não existem condicionantes de partilha a salientar.

De que forma os diferentes atores envolvidos no processo de investigação estão comprometidos com a gestão de dados de investigação?

A colaboração com a Marinha foi exemplar na abertura e na valorização da observação — incluindo a não instrumentada. Efetivamente, a Marinha está habituada a partilhar dados – dados muito detalhados e baseados em trabalho de recolha pormenorizado e não automático. O perfil de cooperação que caracteriza estas forças é determinante neste sentido.

Em contraste, em alguns contextos académicos, ainda existe resistência à partilha de dados, ligada à autoria ou à competição entre projetos e investigadores.

Porém, instituições como o INESC TEC demonstram forte envolvimento e competência técnica na área, oferecendo apoio e validação contínuos.