REVISTA DE BIOLOGIA E CIÊNCIAS DA TERRA ISSN 1519-5228 - Artigo_Bioterra_V25_...
Situação e tendências da gestão de dados de investigação
1. Situação e tendências da
GESTÃO DE DADOS DE INVESTIGAÇÃO
Pedro Príncipe
pedroprincipe@sdum.uminho.pt
2. UniversidadedoMinho Serviçosde Documentação
TÍTULODA APRESENTAÇÃO
Complemento de título
• Nome:
• e-mail:
• url
UniversidadedoMinho Serviçosde Documentação
RELEVÂNCIA DA ABERTURA E GESTÃO DOS DADOS
Poder dos dados
no mundo digital
Importância de
processos de
Ciência Aberta
Políticas dos
financiadores
Requisitos de
editores
Urgência dos
Dados FAIR
Reforço do papel
das instituições
6. Big data é o “hot” tópico mas o
LONG TAIL data deverá ser a preocupação!
OS MILHÕES DE DATASETS
GERADOS POR MILHARES
DE PROJETOS
7. Importância da Gestão de dados de investigação
“Gestão de Dados responsável é parte da boa investigação”
NWO – Introduction to the pilot Data Management
8. Gestão de Dados de Investigação
RAZÕES?
Tornar o processo de
investigação mais fácil
Salvaguardar os dados
Partilhar os dados para
reutilização
Obter ganhos e créditos
por isso
Evitar acusações de
fraude ou má ciência
Cumprir com os requisitos
de financiadores
9. 1. Aumentar o
impacto da
investigação
2. Melhorar a
acessibilidade
3. Prevenir o uso
inadequado
4. Salvaguardar os
dados produzidos
5. Assegurar
compatibilidade
GESTÃO DE DADOS ADEQUADA IRÁ:
10. Criar os
dados
Processar
os dados
Analisar
os dados
Preservar
os dados
Dar
acesso
aos
dados
Reutilizar
os dados
CRIAR OS DADOS: conceber a investigação,
planos de gestão de dados, localizar datasets
existentes, obter consentimentos, recolher e
gerir dados, capturar e criar metadados.
REUTILIZAR OS DADOS:
acompanhar e realizar
investigação, efetuar revisões,
escrutinar descobertas
científicas, ensinar e aprender.
DAR ACESSO AOS DADOS:
distribuir e partilhar dados,
definir licenças e as condições
de acesso, promover os dados.
ANALISAR OS DADOS:
interpretar e produzir dados
derivados, produzir outputs,
escrever publicações, preparar
os dados para partilhar.
PROCESSAR OS DADOS:
digitar, transcrever, verificar,
validar e limpar dados,
anonimizar dados, descrever
dados, gerir e armazenar dados.
Ref: UK Data Archive: http://www.data-archive.ac.uk/create-manage/life-cycle
PRESERVAR OS DADOS: armazenar dados,
fazer cópias de segurança e arquivar, migrar para o
melhor formato e suporte, criar metadados.
12. A CIÊNCIA ABERTA É MAIS DO QUE O
ACESSO ABERTO ÀS PUBLICAÇÕES!
A prática da ciência aberta implica que
o processo de investigação seja aberto,
usando dados, métodos, ferramentas e
workflows que facilitem a partilha, a
reutilização e a colaboração.
13. Encorajar investigadores a ligar
resultados de investigação
Para apoiar a validação de
resultados e facilitar o reuso
DADOS ABERTOS CÓDIGO ABERTO
Software de processos de
investigação para criar,
analisar e visualizar dados
WORKFLOWS ABERTOS
Processos, protocolos e
fluxos de trabalho
estabelecidos.
MUITO + QUE PUBLICAÇÕES
18. Alguns financiadores que requerem planos
de gestão de dados
Descrição dos dados a recolher/criar (ou seja, tipo,
conteúdo, formato, volume, etc.).
Normas e metodologias para a recolha e gestão de
dados.
Questões éticas, deontológicas e de propriedade
intelectual (destacar as restrições à partilha de
dados, por exemplo, embargos,
confidencialidade).
Planos para a partilha de dados e acesso (ou seja,
como, quando e a quem).
Estratégia de preservação a longo prazo.
18
19. Requisitos que visam melhorar e
maximizar o acesso e a reutilização
dos dados de investigação gerados
por projetos financiados pela CE.
DADOS ABERTOS NO H2020
20. Desde janeiro de 2017 é a prática padrão…
Projeto piloto
2014-2016
Prática padrão
2017-2020
…
21. DADOS para validar os resultados
apresentados em publicações
científicas.
Outros dados, conforme
especificado no plano de gestão
de dados.
Requisitos do Open Research Data no H2020
QUE DADOS?
22. Criar e manter atualizado um
plano de gestão dos dados
Assegurar o depósito dos dados
num repositório
Requisitos do Open Research Data no H2020
COMO?
23.
24. Dados abertos no H2020 - OPT OUT
• Em caso de conflito com as obrigações
de confidencialidade.
• Em caso de conflito com as obrigações
nacionais de segurança.
• Em caso de conflito com as regras em
matéria de proteção de dados pessoais.
• Se o projeto não gerar/recolher dados.
• Em caso de conflito com a obrigação de
proteção dos resultados (se é esperado
que os resultados sejam comercial ou
industrialmente explorados).
• Se a realização do objetivo principal do
projeto (ação) ficar comprometido com a
disponibilização aberta dos dados.
Os projetos podem optar por sair, na fase de proposta ou durante a execução
(devidamente justificado no plano de projeto), com base em:
27. Recomendações aos beneficiários FCT
Nas candidaturas a financiamento apresentadas à FCT, sugere-se que os
candidatos incluam um plano de gestão de dados, contendo:
1) descrições de tipos de dados, amostras, coleções, software, modelos, materiais curriculares e
outros materiais que se prevê venham a ser produzidos no âmbito das atividades financiadas;
2) normas a serem usadas para formatos e conteúdo de dados e metadados (nos casos em que
estas normas não existam ou sejam julgadas inapropriadas tal deve ser documentado juntamente
com as soluções propostas);
3) políticas de acesso e partilha incluindo disposições de proteção apropriada de privacidade,
confidencialidade, segurança, propriedade intelectual e outros direitos ou requisitos;
4) políticas e disposições para reutilização, redistribuição e produção de subprodutos;
5) planos para arquivo de dados, amostras, software, modelos e outros materiais produzidos.
30. DESCRIÇÃO DOS DADOS E RECOLHA OU
REUTILIZAÇÃO DOS DADOS EXISTENTES
■ Como os dados serão recolhidos ou
produzidos e/ou como os dados existentes
serão reutilizados?
■ Que dados (por exemplo, tipos, formatos
e volumes) serão recolhidos ou
produzidos?
31. DOCUMENTAÇÃO E QUALIDADE
DOS DADOS
■ Que metadados e documentação (ex.
a metodologia de recolha de dados e o
modo de organização dados)
acompanhará os dados?
■ Que medidas de controlo da
qualidade dos dados serão utilizadas?
32. ARMAZENAMENTO E BACKUP DURANTE
O PROCESSO DE INVESTIGAÇÃO
■ Como os dados e metadados serão
armazenados durante o processo de
investigação?
■ Como a segurança dos dados e a
proteção de dados sensíveis serão
tratadas durante a investigação?
33. REQUISITOS LEGAIS E ÉTICOS, CÓDIGOS
DE CONDUTA
■ Se forem tratados dados pessoais, como
será assegurado o cumprimento da
legislação relativa aos dados pessoais e à
proteção dos dados?
■ Como serão geridas outras questões
jurídicas, como os direitos de propriedade
intelectual? Que legislação é aplicável?
■ Como serão tidas em conta as possíveis
questões éticas, e códigos de conduta
seguidos?
34. PARTILHA DE DADOS E PRESERVAÇÃO A
LONGO PRAZO
■ Como e quando os dados serão disponibilizados
em acesso aberto? Há possibilidade de restrições à
partilha de dados ou motivos de embargo?
■ Como serão selecionados os conjuntos de dados
para preservação e onde será assegurada a
preservação a longo prazo (repositórios dados)?
■ Que métodos ou ferramentas de software serão
necessários para aceder e usar os dados?
■ Como é que será assegurado o registo de
identificadores persistentes (ex. DOI) para dados?
35. RESPONSABILIDADES E RECURSOS EM
MATÉRIA DE GESTÃO DE DADOS
■ Quem (ex. função, cargo e instituição)
será responsável pela gestão dos dados
(ou seja, o administrador de dados)?
■ Que recursos (ex. financeiros e de tempo)
serão dedicados à gestão de dados e à
garantia de que os dados são FAIR?
37. Requisitos dos editores para a
disponibilização de dados
Tipo de requisitos:
Enviar dataset para o
editor.
Depositar dataset num
repositório confiável.
Providenciar a informação
de contacto.
38. ALERTA! providenciar serviços nas instituições ou usar serviços das comunidades: dados
devem permanecer na administração dos investigadores e instituições de investigação.
41. Princípios FAIR para os dados
Localizáveis
L1. (meta)dados associados a identificadores globais,
únicos e persistentes.
L2. dados descritos com metadados pormenorizados.
L3. (meta)dados registados ou indexados em recursos
de pesquisa.
L4. metadados especificando o identificador dos
dados.
Acessíveis
A1. (meta)dados são recuperáveis através do seu
identificador usando um protocolo de comunicações
normalizado.
A2. protocolo aberto, gratuito e de implementação
universal.
A3. protocolo permite procedimentos de autenticação
e autorização, quando necessário.
A4. metadados acessíveis, mesmo quando os dados já
não estão disponíveis.
Interoperáveis
I1. (meta)dados utilizam uma linguagem formal,
acessível, partilhada e largamente aplicável para
representação do conhecimento.
I2. (meta)dados utilizam vocabulários que seguem os
princípios FAIR.
I3. (meta)dados contêm referências qualificadas a
outros (meta)dados.
Reutilizáveis
R1. meta(dados) têm uma grande diversidade de
atributos precisos e relevantes.
R1.1. (meta)dados são disponibilizados com uma
licença de uso de dados clara e acessível.
R1.2. (meta)dados têm associada a sua proveniência.
R1.3. (meta)dados seguem as normas relevantes na
comunidade disciplinar.
The FAIR Data Principles - disponíveis em:
https://www.force11.org/group/fairgroup/fairprinciples
Publicados em março de 2016 em:
https://www.nature.com/articles/sdata201618
42. Abordagem prática dos princípios FAIR
• Findable
Registar identificadores persistentes (PIDs), providenciar
metadados, registar num recurso pesquisável, repositório...
• Accessible
Recuperável pelo PID usando o protocolo standard, metadados
devem permanecer acessíveis mesmo que os dados não...
• Interoperable
Usar linguagens formais e amplamente aplicáveis, usar
vocabulários padrão, referências qualificadas...
• Reusable
Metadados com qualidade, licença e proveniência claras,
utilização de padrões da comunidade disciplinar...
www.force11.org/group/fairgroup/fairprinciples
45. REUTILIZAÇÃO
DE DADOS
PARTILHA DE
DADOS
METADADOS E
NORMALIZAÇÃO
ARMAZENAMENTO
E BACKUPS
ORGANIZAR E
DOCUMENTAR
REQUISITOS DOS
FINANCIADORES
PROTEÇÃO DE
DADOS
REPOSITÓRIOS DE
DADOS
PLANOS DE
GESTÃO DE DADOS
CICLO DE VIDA
DOS DADOS
Estruturar conhecimento e adquirir competências em:
47. 7 recomendações para apoiar a cauda
longa dos dados de investigação
1. Reconhecer e compreender a diversidade dos dados criados na sua organização, ou
através do seu apoio financeiro e desenvolver estruturas adequadas para a gestão
desses dados.
2. Dimensionar os mecanismos de financiamento existentes para apoiar a gestão de
dados de investigação para pequenos projetos de investigação.
3. Expandir e fortalecer o papel institucional na gestão dos dados de investigação.
4. Desenvolver e aplicar padrões comuns em instituições e domínios para garantir maior
interoperabilidade entre os conjuntos de dados.
5. Apoiar a reproducibilidade e a transparência da investigação, ligando dados, software
e literatura.
6. Estabelecer estruturas de governança que reflitam as diversas dimensões dos dados de
investigação.
7. Desenvolver princípios e políticas coerentes para a recolha e preservação da cauda
longa dos dados.
48. 7 recomendações para apoiar a cauda
longa dos dados de investigação
3. Expandir e fortalecer o papel institucional na gestão dos dados.
Muitos conjuntos de dados de cauda longa correm o risco de serem perdidos
porque não são administrados adequadamente.
O suporte local a investigadores aumentará a adoção de padrões e boas práticas
de gestão de dados ao longo do ciclo de vida da investigação, melhorando a
probabilidade de os dados serem preservados adequadamente, pesquisáveis e
reutilizáveis por outros.
“Encorajamos universidades e instituições a oferecer serviços de gestão de dados…”
“Serviços devem fazer parte da atuação natural das bibliotecas…”
49. Ação estratégica institucinal
Fundamental definir uma estratégia detalhada, por etapas,
perceber desde já o que é mais urgente e possível fazer.
Realismo na ação e ambição na estratégia
Estar a par de serviços e infraestruturas em curso ou
planeados a nível nacional e regional, ou noutros países.
Colaboração na ação, cooperação estratégica
50. A não perder!
INICIATIVAS & PROJETOS
Research Data Alliance
Comunidade internacional
GO FAIR
Orientações de implementação
EOSC
Estratégia regional de serviços
OpenAIRE
Serviço de descoberta, ferramentas de
planos de gestão de dados, ZENODO.
FAIRsFAIR
Resultados sobre certificação FAIR e
capacitação
RECURSOS
FOSTER Open Science
Toolkit (online courses)
OpenAIRE
Guias de apoio
MOOC “Essencial GDI”
Disponibilizado na NAU (FFCN)
Recomendações RDA
Certificação de repositórios, 23 things
RDM
…
+ alinhamento com infraestruturas temáticas
(exemplo: GBIF)