Combinación de conglomerados particionales para la clasificación del germoplasma de malanga (Xanthosoma spp.)
Contenido principal del artículo
Resumen
En el presente trabajo se evalúan diferentes métodos de agrupamiento particionales implementados en la función kmeans en el lenguaje de programación R, con el objetivo de identificar grupos naturales inherentes al germoplasma de malanga (Xantosoma spp.) que se conserva en el Inivit. La matriz de datos está conformada por variables mixtas donde se integran las variables cualitativas (nominales y ordinales) y las cuantitativas, según sus características morfológicas. A partir de la matriz de distancia se combinan las soluciones para obtener una estructura consenso, en aras de lograr un mejor rendimiento y calidad de los resultados alcanzados por los algoritmos individuales. Para los análisis se utilizaron funciones implementadas sobre la base del lenguaje de programación R. En esta investigación se demostró que los algoritmos particionales estudiados, así como la combinación de agrupamientos para lograr una partición consenso son técnicas efectivas en la conformación de estructuras consistentes del genofondo de malanga. Este análisis puede ser aplicado a otros estudios de clasificación en germoplasma vegetal.
Detalles del artículo
Citas
ENRÍQUEZ, G. 1991. Relación de los recursos fitogenéticos con otras ciencias. En: Castillo, R.; J. Estrella y C. Tapia (eds). Técnicas para el manejo y uso de los recursos fitogenéticos. Departamento de Recursos Fitogenéticos. Instituto Nacional de Investigaciones Agropecuarias, Quito, Ecuador. p. 314.
FAO.1996. Informe sobre el Estado de los Recursos Fitogenéticos en el Mundo. Preparado para la Conf. Técn. Internac. sobre los Recursos Fitogenéticos. Leipzig, Alemania. 75p.
FORGY, E. 1965. Cluster analysis of multivariate data: efficiency vs interpretability of classifications. Biometrics. 21:768-769.
FAWCETT, T. 2003. ROC Graphs: Notes and Practical Considerations for Data Mining Researchers. Hewlett-Packard Company, 28p.
GATNAR, E. and M. WALESIAK (eds.) 2004. Metody statystycznej analizy wielowymiarowej w badaniach marketingowych [Multivariate statistical analysis methods in marketing research]: Wroclaw.
HARTIGAN, J. and M. WONG. 1979. Algorithm AS 136: A K-means clustering algorithm. Applied Statistics, 28: p.100-108.
KRAGH, H. 1989. Introducción a la Historia de la Ciencia. Crítica, Barcelona, 281p.
KAUFMAN, L. and P. ROUSSEEUW. 1990. Finding Groups in Data: An introduction to cluster analysis. Wiley, New York.
KOHAVI, R. and F. PROVOST. 1998. Glossary of Terms. Editorial for the Special Issue on Applications Machine Learning and the Knowledge Discovery Process, 30(2-3).
LLOYD, S. 1982. Least squares quantization in PCM. Technical Note, Bell Laboratories. In IEEE Transactions on Information Theory, 28:128-137.
MILIÁN, M. 2008. Caracterización de la variabilidad de los cultivares de la colección cubana de germoplasma del género Xanthosoma (Araceae). Tesis para aspirar al grado de Doctor en Ciencias Biológicas, Ciudad de la Habana,123p.
MOLINA, O.; R. GARCÍA; M. MILIÁN; L. GONZÁLEZ; C. PONS y R. GRAU. 2013a. Clasificación y determinación del número óptimo de conglomerados en bancos de germoplasma. Revista Centro Agrícola, 40(4):19-24.
MOLINA, O.; R. GARCÍA; M. MILIÁN; L. GONZÁLEZ; C. PONS y R. GRAU. 2013b. Análisis taxonómico con variables mixtas en accesiones de malanga (Xanthosoma spp.) y plátano (Musa spp.). Revista Centro Agrícola, 40(4):7-10.
MOLINA, O.; R. GARCÍA; M. MILIÁN; L. GONZÁLEZ y C. PONS. 2015. Métodos de estandarización en colecciones de germoplasma vegetal. Revista Agricultura Tropical, 1(2):67-73.
MOLINA, O.; R. GARCÍA; M. MILIÁN; L. GONZÁLEZ y C. PONS. 2017. Taxobanger v.1.0: Aplicación informática en R para el análisis taxonómico en bancos de germoplasma vegetal. Revista Cuba Ciencias Informáticas, 11(3):159-173.
MOLINA, O.; R. GARCÍA; M. MILIÁN; L. GONZÁLEZ y C. PONS. 2018. Evaluación de técnicas para la clasificación del genofondo de raíces, rizomas y tubérculos tropicales, plátanos y bananos en Cuba. Informe del Proyecto PAH P131LH001027. Instituto de Investigaciones de Viandas Tropicales (Inivit), Minag, Cuba. 146p.
MILIÁN, M.; O. MOLINA and Y. FIGUEROA. Integrated Characterization of Cuban Germplasm of Cocoyam (Xanthosoma Sagittifolium (L.) Schott). Journal of Plant Genetics and Crop Research. 2018;1(1):1-18.
MACQUEEN, J. 1967. Some methods for classification and analysis of multivariate observations. In Proceedings of the Fifth Berkeley Symposium on Mathematical Statistics and Probability, editors. LE Cam LM, Neyman J. Berkeley, CA: University of California Press. 281-297.
MAECHLER, M.; P. ROUSSEEUW; A. STRUYF; M. HUBERT and K. HORNIK. 2019. Cluster: cluster Analysis Basics and Extensions. R package version 2.1.0. Available from: https://cran.r-project.org/web/packages/cluster/index.html.
MAIMON, O. and ROKACH, L. 2005. Data Mining and Knowledge Discovery Handbook. Springer US.
ROUSSEEUW, P. 1987. Silhouettes: A graphical aid to the interpretation and validation of cluster analysis. J. Comput. Appl. Math, 20:53-65.
PROVOST, F. and T. FAWCETT. 2001. Robust classification for imprecise environments. Machine Learning, 42:203-231.
SILVA, S.; A. PIRES DE MATOS; E. ALVES y K. SHEPHERD. 1997. Mejoramiento de bananos diploides (AA) en EMBRAPA/CNPMF. Infomusa, 6(2):4-6.
SORENSEN, T. 1948. A method of establishing groups of equal amplitude in plant sociology based on similarity of species content and its application to analysis of vegetation on Danish commons. Biologiske Skrifter, 5, 1-34.
SWETS, J. 1988. Measuring the accuracy of diagnostic systems. Science, 240:1285-1293.
SWETS, J.; R. DAWES and J. MONAHAN. Better decisions through science.2000a; 82-87. Consultado: 24 de octubre de 2020. Disponible en: http://www.psychologicalscience.org/newsresearch/publications/journals/%siam.pdf.
SWETS, J.A.; R. DAWES and J. MONAHAN. 2000b. Psychological science can improve diagnostic decisions. Psy-Chological Science in the Public Interest, 1(1):1-26.
R Development Core Team. 2019. R: A language and environment for statistical computing (version 3.6.1). R Foundation for Statistical Computing. Vienna, Austria. Available from: http://www.r-project.org/.
TENENHAUS, M. and F. YOUNG. 1985. An Analysis and Synthesis of Multiple Correspondence Analysis, Optimal Scaling, Dual Scaling, Homogeneity Analysis and Other Methods for Quantifying Categorical Multivariate Data. Psychometrika, 50(91).
WALESIAK, M. and A. DUDEK. 2017. ClusterSim: Searching for optimal clustering
procedure for a data set. Consultado: 12 de diciembre de 2017. Disponible en: http://cran.fhcrc.org/web/packages/clusterSim/clusterSim.pdf.
WEISS, G.M. and F. PROVOST. 2003. Learning when training data are costly: The effect of class distribution on tree induction. JAIR, 19:315-354.
