Please use this identifier to cite or link to this item:
https://www.arca.fiocruz.br/handle/icict/46145
Type
PreprintCopyright
Open access
Collections
- BA - IGM - Preprint [82]
Metadata
Show full item record
EXAMINING THE QUALITY OF RECORD LINKAGE PROCESS USING NATIONWIDE BRAZILIAN ADMINISTRATIVE DATABASES TO BUILD A LARGE BIRTH COHORT
Author
Affilliation
Fundação Oswaldo Cruz. Centro de Integração de Dados e Conhecimento para Saúde. Salvador, BA, Brasil.
Fundação Oswaldo Cruz. Centro de Integração de Dados e Conhecimento para Saúde. Salvador, BA, Brasil.
Fundação Oswaldo Cruz. Centro de Integração de Dados e Conhecimento para Saúde. Salvador, BA, Brasil.
Fundação Oswaldo Cruz. Centro de Integração de Dados e Conhecimento para Saúde. Salvador, BA, Brasil.
Fundação Oswaldo Cruz. Centro de Integração de Dados e Conhecimento para Saúde. Salvador, BA, Brasil.
Fundação Oswaldo Cruz. Centro de Integração de Dados e Conhecimento para Saúde. Salvador, BA, Brasil.
Universidade Federal da Bahia. Salvador, BA, Brasil.
London School of Hygiene and Tropical Medicine. London, Reino Unido.
Fundação Oswaldo Cruz. Centro de Integração de Dados e Conhecimento para Saúde. Salvador, BA, Brasil.
Fundação Oswaldo Cruz. Instituto Gonçalo Moniz. Centro de Integração de Dados e Conhecimentos para Saúde. Salvador, BA, Brasil.
Fundação Oswaldo Cruz. Centro de Integração de Dados e Conhecimento para Saúde. Salvador, BA, Brasil.
Fundação Oswaldo Cruz. Centro de Integração de Dados e Conhecimento para Saúde. Salvador, BA, Brasil.
Fundação Oswaldo Cruz. Centro de Integração de Dados e Conhecimento para Saúde. Salvador, BA, Brasil.
Fundação Oswaldo Cruz. Centro de Integração de Dados e Conhecimento para Saúde. Salvador, BA, Brasil.
Fundação Oswaldo Cruz. Centro de Integração de Dados e Conhecimento para Saúde. Salvador, BA, Brasil.
Universidade Federal da Bahia. Salvador, BA, Brasil.
London School of Hygiene and Tropical Medicine. London, Reino Unido.
Fundação Oswaldo Cruz. Centro de Integração de Dados e Conhecimento para Saúde. Salvador, BA, Brasil.
Fundação Oswaldo Cruz. Instituto Gonçalo Moniz. Centro de Integração de Dados e Conhecimentos para Saúde. Salvador, BA, Brasil.
Abstract
Introduction Research using linked routine population-based data collected for non-research purposes
has increased in recent years because they are a rich and detailed source of information. The
objective of this study is to present an approach to prepare and link data from administrative sources
in a middle-income country, to estimate its accuracy and to identify potential sources of bias by
comparing linked and no-linked case.
Methods We linked two administrative datasets with data covering the period 2001 to 2015, using
maternal attributes (maternal name, age, date of birth, and municipally of residence) from Brazil: live
birth information system and the baseline of the 100 Million Brazilian Cohort (created using
administrative records from over 114 million individuals whose families applied for social assistance
via the National Register for Social Programmes) implementing an in house developed linkage tool
CIDACS-RL. We then estimated the accuracy of the linkage and examined the characteristics of
missed-matches to identify any potential source of bias.
Results A total of 27,699,891 live births were recorded of those, 16,447,414 (59.4%) were linked with
SINASC. The sensitivity of the linkage ranged from 39.3% in 2001 to 82.1% in 2014. A substantial
improvement in the linkage sensitivity after the introduction of maternal date of birth attribute, in
2011, was observed. Our analyses indicated a slightly higher proportion of missing data among
missed matches and a higher proportion of people living in an urban area and self-declared as
Caucasian among linked pairs when compared with non-linked sets.
Discussion We demonstrated that CIDACS-RL is capable of performing high quality and accurate
linkage even with a limited number of common attributes, using indexation as a blocking strategy in
large routine databases from a middle-income country. However, residual records occurred more
among people under worse living conditions. The results presented in this study reinforce the need of
evaluating linkage quality and when necessary to take linkage error into account for the analyses of
any generated dataset.
Share