期刊论文

【摘要】

A blocagem (blocking), que consiste na criação de blocos lógicos de registros dentro de arquivos a serem relacionados, é um dos processos que faz parte do relacionamento probabilístico de grandes bases de dados. Os objetivos deste trabalho são comparar a eficiência de diferentes esquemas de blocagem e estudar a eficiência da utilização de uma rotina de padronização desenvolvida pelos autores, que aplica a mesma grafia para as primeiras sílabas de nomes com o mesmo som. Procedemos ao relacionamento de uma base de dados de mortalidade com 59.065 óbitos com uma base de óbitos hospitalares com 531 registros, que apresentavam um registro correspondente na base de mortalidade. Diferentes estratégias de blocagem foram comparadas em relação ao custo para o processamento e a proporção de pares verdadeiros perdidos. A estratégia de blocagem em múltiplos passos foi mais eficiente, permitindo a identificação de todos os pares verdadeiros com a formação de um número total de pares que foi inferior ao obtido em duas rotinas diferentes de passo único. Já entre as estratégias de passo único avaliadas, a que se baseou no emprego da chave formada pela combinação do código soundex do primeiro nome e sexo apresentou o melhor resultado. A utilização da rotina de padronização que aplica a mesma grafia para as primeiras sílabas de nomes com o mesmo som não apresentou um impacto importante, quer em custos, quer na redução da perda de pares verdadeiros.
Blocking, that is, the creation of logical record blocks within the files to be linked, is one of the steps that have to be taken in the process of probabilistically linking large databases. This paper is aimed at comparing different blocking strategies and studying the effectiveness of a standardizing algorithm that we have developed, which uses the same spelling for similarly sounding first syllables of names. We linked a mortality database with information on 59,065 death reports with a hospital death report database with 531 records, which had corresponding entries in the larger database. Different blocking strategies were compared with regards to processing cost and the proportion of lost true matches. The multiple steps blocking strategy was more effective, allowing the identification of all the true matches, at the same time producing a total number of pairs which was smaller than the one obtained with the use of two different single-step strategies. Among the single-step strategies, the best result was achieved with the utilization of a key produced by a combination of the soundex codes of the first name and sex. The utilization of the algorithm that standardizes the spelling of similarly sounding first syllables of names produced no remarkable effects, both in terms of cost and reduction of the loss of true matches.

【授权许可】

Unknown

Revista Brasileira de Epidemiologia
Avaliação de diferentes estratégias de blocagem no relacionamento probabilístico de registros Evaluation of different blocking strategies in probabilistic record linkage


关键词: Banco de dados; Relacionamento probabilístico de registros; Blocagem; Epidemiologia; Database; Probabilistic record linkage; Blocking; Epidemiology;
DOI : 10.1590/S1415-790X2002000200006
来源: DOAJ


	文献评价指标
	下载次数：0次	浏览次数：1次

【 摘 要 】

【 授权许可】

【摘要】

【授权许可】