Por Ju Leonel
Metadados? O que são? Do que se alimentam? Onde habitam?
Começando pelo começo...
"Metadados são os dados dos dados. "
"Metadados são o manual de instrução dos dados."
Ok, mas o quê isso quer dizer exatamente??
Os metadados são informações que respondem às seguintes perguntas em relação a um grupo de dados: a) quem?; b) o quê?; c) quando?; d) onde?; e) por quê?; e f) como? Essas informações são guardadas, em geral, em um arquivo XML e acompanham um conjunto de dados. Qualquer editor de texto deve ser capaz de ler esse arquivo, mas o mais importante é que ele seja bem estruturado para ser lido por "máquinas".
Vamos ver como isso funciona por meio de um exemplo: uma tabela de dados de salinidade, temperatura e pressão coletadas durante um cruzeiro oceanográfico usando um CTD.
A princípio, pensamos que uma simples tabela com data e local de coleta, valores de salinidade, temperatura e pressão tem toda informação necessária para que esses dados possam ser usados por qualquer pessoa em qualquer local.
Agora vamos nos colocar no lugar de uma pesquisadora que recebeu essa tabela e refletir sobre as perguntas que ela pode fazer:
- é salinidade prática, de referência ou absoluta?
- a temperatura é em Celsius ou Kelvin?
- os dados de localização estão em grau/minuto/segundo ou grau/décimo de grau? Ou está em UTM e qual o datum usado?
- a data está em dia/mês/ano ou mês/dia/ano?
- qual a marca/modelo do CTD que coletou esses dados? Quando foi calibrado? Qual a frequência de aquisição dos dados?
- os dados passaram por algum controle de qualidade e/ou pré-processamento? Qual?
- qual a licença para uso e distribuição dos dados?
- nome/contato da pessoa/instituição responsável pelos dados?
Além dessas, MUITAS outras dúvidas podem surgir. E é aí que entra o arquivo de metadados: responder a todas essas perguntas.
Um bom arquivo de metadados deve ser detalhado, confiável e bem documentado. Além disso, cada padrão de metadados segue um esquema e marcação específicos. Por exemplo, para dados de data e localização, recomenda-se o uso do padrão ISO 19115; para dados oceanográficos e climáticos recomenda-se o CF Medata Convention.
Mas tudo isso parece muito trabalhoso, não?
Por isso, os metadados devem ser definidos durante o planejamento do projeto e seu uso evitará muitas dores de cabeça durante e após a execução do projeto, além de colaborar para a preservação, compartilhamento e reuso dos dados. Consequentemente, irá contribuir para uma das metas da Década do Oceano: um oceano acessível e transparente.
Um exemplo de mau uso de dados devido a ausência de metadados ocorreu quando Cristoforo Colombo decidiu cruzar o Atlântico em busca de uma nova rota para a Ásia: ele usou os dados do geógrafo persa Alfraganus e assumiu que a unidade de distância estava em milhas romanas (1.479 metros), quando na verdade estavam em milhas arábicas (1.800 - 2.000 m).
Comments