期刊论文

【摘要】

Na maioria dos países, o câncer de mama entre as mulheres é predominante. Se diagnosticado precocemente, apresenta alta probabilidade de cura. Diversas abordagens baseadas em Estatística foram desenvolvidas para auxiliar na sua detecção precoce. Este artigo apresenta um método para a seleção de variáveis para classificação dos casos em duas classes de resultado, benigno ou maligno, baseado na análise citopatológica de amostras de célula da mama de pacientes. As variáveis são ordenadas de acordo com um novo índice de importância de variáveis que combina os pesos de importância da Análise de Componentes Principais e a variância explicada a partir de cada componente retido. Observações da amostra de treino são categorizadas em duas classes através das ferramentas k-vizinhos mais próximos e Análise Discriminante, seguida pela eliminação da variável com o menor índice de importância. Usa-se o subconjunto com a máxima acurácia para classificar as observações na amostra de teste. Aplicando ao Wisconsin Breast Cancer Database, o método proposto apresentou uma média de 97,77% de acurácia de classificação, retendo uma média de 5,8 variáveis.

【授权许可】

CC BY
All the contents of this journal, except where otherwise noted, is licensed under a Creative Commons Attribution License

【预览】

附件列表
Files	Size	Format	View
RO202005130142764ZK.pdf	103KB	PDF	download

Ciência & Saúde Coletiva
Método de mineração de dados para identificação de câncer de mama baseado na seleção de variáveis

Nicole Holsbach¹ Flávio Sanson Fogliatto¹ Michel Jose Anzanello¹
关键词: Selection of variables; Breast cancer identification; K-nearest neighbor algorithm (KNN); Discriminant analysis; Seleção de variáveis; Identificação de câncer de mama; k-vizinhos mais próximos; Análise Discriminante;
DOI : 10.1590/1413-81232014194.01722013
来源: SciELO
PDF


	文献评价指标
	下载次数：59次	浏览次数：18次

【 摘 要 】

【 授权许可】

【 预 览 】

【摘要】

【授权许可】

【预览】