Análisis de agrupamiento para la caracterización del germoplasma de ñame (Dioscorea spp.) mediante conglomerados particionales

Contenido principal del artículo

Osmany Molina Concepción
Yuniel Rodríguez García
Yaselis Guillén López
Carmen C. Pons Pérez

Resumen

En el presente trabajo se evalúan diferentes métodos de agrupamiento particionales implementados en la función kmeans, unido a los métodos Pam y Clara. El objetivo es identificar patrones naturales dentro del germoplasma de ñame conservado en el Inivit. La matriz de datos está conformada por variables mixtas donde se integran las variables cualitativas (nominales y ordinales) y las cuantitativas según sus características morfológicas. A partir de la matriz de distancia se combinan las soluciones para obtener una estructura consenso, en aras de lograr un mejor rendimiento y calidad de los resultados alcanzados por los algoritmos individuales. Para los análisis se utilizaron funciones implementadas sobre la base del lenguaje de programación R. En esta investigación se demostró que los algoritmos particionales estudiados, así como la combinación de agrupamientos para lograr una partición consenso son técnicas efectivas en la conformación de estructuras consistentes del germoplasma de ñame. Este enfoque puede ser extrapolado a otros estudios de clasificación en germoplasma vegetal, destacando su utilidad y aplicabilidad en investigaciones similares.

Detalles del artículo

Cómo citar
Molina Concepción, O., Rodríguez García, Y., Guillén López, Y., & Pons Pérez, C. C. (2024). Análisis de agrupamiento para la caracterización del germoplasma de ñame (Dioscorea spp.) mediante conglomerados particionales. Agricultura Tropical, 10(1), 53–67. Recuperado a partir de https://agriculturatropical.edicionescervantes.com/index.php/inivit/article/view/240
Sección
Artículos originales
Biografía del autor/a

Osmany Molina Concepción, Instituto de Investigaciones de Viandas Tropicales (INIVIT)

Ing. en Máquinas Computadoras, Investigador Auxiliar,  Bioinformatica, INIVIT.

Citas

AMOATEY, H.M.; G.Y. KLU; E.K. QUARTEY; H.A. DOKU; F.L. SOSSAH; M.M. SEGBEFIA and J.K. AHIAKPA. 2015. Genetic Diversity Studies in 29 Accessions of Okra 70 (Abelmoschus spp L.) Using 13 Quantitative Traits. Am. J. Exp. Agric., 5(3):217-225.
AHIAKPA, J.K.; P.D. KALEDZI; E.B. ADI; S. PEPRAH and H.K. DAPAAH. 2013. Genetic diversity, correlation and path analyses of okra (Abelmoschus spp L. Moench) germplasm collected in Ghana. Int. J. Dev. Sustain. 2(2):1396-1415.
AMIN, A. and J. SINGLE. 2010. Genetic Variability, heritability and genetic advance studies in Carrot (Daucus carota var. sativa L.). Electronic Journal of Plant Breeding. 1(6): 1504-150.
CASTILLO, R. 1991. Nuevos Departamentos de Recursos Fitogenéticos en Ecuador. Diversity, 7(1-2): p.37-39.
DAROS, M.; J.R. AMARAL; T.S. PEREIRA; N.R. LEAL; S.P. FREITAS y T. SEDIYAMA. (2002). Caracterização morfológica de acessos de batata-doce. Horticultura Brasileira, 20: 43-47.
ELAMEEN, A.; A. LARSEN; S. KLEMSDAL; S. FJELLHEIM; L. SUNDHEIM; S.; MSOLLA, E. MASUMBA and O.A. ROGNLI. 2011. Phenotypic diversity of plant morphological and root descriptor traits within a sweet potato, Ipomoea batatas L. Lam., germplasm collection from Tanzania. Genet. Resour. Crop Evol. 58: 397-407.
FRANCO, L. y R. HIDALGO. 2003. Análisis Estadístico de Datos de Caracterización Morfológica de Recursos Fitogenéticos. Boletín técnico no. 8, Instituto Internacional de Recursos Fitogenéticos (IPGRI), Cali, Colombia. 89 pp.
FORGY, E. 1965. Cluster analysis of multivariate data: efficiency vs interpretability of classifications. Biometrics. 21:768–769.
FAWCETT, T. 2003. ROC Graphs: Notes and Practical Considerations for Data Mining Researchers. Hewlett-Packard Company, 28p.
GATNAR, E. and WALESIAK, M. (eds.) 2004. Metody statystycznej analizy wielowymiarowej w badaniach marketingowych [Multivariate statistical analysis methods in marketing esearch]: Wroclaw.
HARTIGAN, J. and WONG, M. 1979. Algorithm AS 136: A K-means clustering algorithm. Applied Statistics, 28: p.100–108.
KRAGH, H. 1989. Introducción a la Historia de la Ciencia. Crítica, Barcelona, 281p.
KAUFMAN, L. and P. ROUSSEEUW. 1990. Finding Groups in Data: an Introduction to Cluster Analysis. Wiley, New York.
KOHAVI, R. and F. PROVOST. 1998. Glossary of Terms. Editorial for the Special Issue on Applications Machine Learning and the Knowledge Discovery Process, 30(2-3).
Lebot, V. 2010. Root and Tuber Crops Chapter 3 Sweet Potato. Handbook of Plant Breeding. Ed. J.E. Bradshaw. Springer Science Business Media, 97-125.
LLOYD, S. 1982. Least squares quantization in PCM. Technical Note, Bell Laboratories. In IEEE Transactions on Information Theory, 28:128–137.
MILIÁN, M. 2008. Caracterización de la variabilidad de los cultivares de la colección cubana de germoplasma del género Xanthosoma (Araceae). Tesis para aspirar al grado de Doctor en Ciencias Biológicas, Ciudad de la Habana,123p.
MOLINA, O.; R. GARCÍA; M. MILIÁN; L. GONZÁLEZ; C. PONS y R. GRAU. 2013a. Clasificación y determinación del número óptimo de conglomerados en bancos de germoplasma. Revista Centro Agrícola, 40(4):19–24.
MOLINA, O.; R. GARCÍA; M. MILIÁN; L. GONZÁLEZ; C. PONS y R. GRAU. 2013b. Análisis taxonómico con variables mixtas en accesiones de malanga (Xanthosoma spp.) y plátano (Musa spp.). Revista Centro Agrícola, 40(4):7–10.
MOLINA, O.; R. GARCÍA; M. MILIÁN; L. GONZÁLEZ y C. PONS. 2015. Métodos de estandarización en colecciones de germoplasma vegetal. Revista Agricultura Tropical, 1(2):67–73.
MOLINA, O.; R. GARCÍA; M. MILIÁN; L. GONZÁLEZ y C. PONS. 2017. Taxobanger v.1.0: Aplicación informática en R para el análisis taxonómico en bancos de germoplasma vegetal. Revista Cuba Ciencias Informáticas, 11(3):159–173.
MOLINA, O.; R. GARCÍA; M. MILIÁN; L. GONZÁLEZ y C. PONS. 2018. Evaluación de técnicas para la clasificación del genofondo de raíces, rizomas y tubérculos tropicales, plátanos y bananos en Cuba. Informe del Proyecto PAH P131LH001027. Instituto de Investigaciones de Viandas Tropicales (Inivit), Minag, Cuba. 146p.
MILIÁN, M.; O. MOLINA and Y. FIGUEROA. Integrated Characterization of Cuban Germplasm of Cocoyam (Xanthosoma Sagittifolium (L.) Schott). Journal of Plant Genetics and Crop Research. 2018;1(1):1–18.
MACQUEEN, J. 1967. Some methods for classification and analysis of multivariate observations. In Proceedings of the Fifth Berkeley Symposium on Mathematical Statistics and Probability, editors. LE Cam LM, Neyman J. Berkeley, CA: University of California Press. 281–297.
MAECHLER, M.; P. ROUSSEEUW; A. STRUYF; M. HUBERT and K. HORNIK. 2019. Cluster: cluster Analysis Basics and Extensions. R package version 2.1.0. Available from: https://cran.r-project.org/web/packages/cluster/index.html.
MAIMON, O. and ROKACH, L. 2005. Data Mining and Knowledge Discovery Handbook. Springer US.
NÚÑEZ, C.A. Y L.D. ESCOBEDO. 2011. Uso correcto del análisis clúster en la caracterización de germoplasma vegetal. Agronomía mesoamericana, 22(2): 415-427.
ROUSSEEUW, P. 1987. Silhouettes: A graphical aid to the interpretation and validation of cluster analysis. J. Comput. Appl. Math, 20:53–65.
PROVOST, F. and T. FAWCETT. 2001. Robust classification for imprecise environments. Machine Learning, 42:203–231.
SORENSEN, T. 1948. A method of establishing groups of equal amplitude in plant sociology based on similarity of species content and its application to analysis of vegetation on Danish commons. Biologiske Skrifter, 5, 1-34.
SWETS, J.; R. DAWES and J. MONAHAN. 2000a. Better decisions through science. 82–87. Consultado: 24 de octubre de 2020. Disponible en: http://www.psychologicalscience.org/newsresearch/publications/journals/%siam.pdf.
SWETS, J.A.; R. DAWES and J. MONAHAN. 2000b. Psychological science can improve diagnostic decisions. Psy-Chological Science in the Public Interest, 1(1):1–26.
RITSCHEL, P.S. y Z. HUAMÁN .2002. Variabilidade morfológica da coleção de germoplasma de batata-doce da Embrapa - Centro Nacional de Pesquisa de Hortaliças. Pesquisa Agropecuária Brasileira, 37: 485-492.
R DEVELOPMENT CORE TEAM. 2019. R: A language and environment for statistical computing (version 3.6.1). R Foundation for Statistical Computing. Vienna, Austria. Available from: http://www.r-project.org/.
TAIRO, F.; E. MNENEY and A KULLAYA. 2008. Morphological and agronomical characterization of sweet potato germplasm from Tanzania. Afr. J. Plant Sci., 2(8): 77-85.
TENENHAUS, M. and F. YOUNG. 1985. An Analysis and Synthesis of Multiple Correspondence Analysis, Optimal Scaling, Dual Scaling, Homogeneity Analysis and Other Methods for Quantifying Categorical Multivariate Data. Psychometrika, 50(91).
WALESIAK, M. and A. DUDEK. 2017. ClusterSim: Searching for optimal clustering
procedure for a data set. Consultado: 12 de diciembre de 2017. Disponible en: http://cran.fhcrc.org/web/packages/clusterSim/clusterSim.pdf.
WEISS, G.M. and F. PROVOST. 2003. Learning When Training Data are Costly: The Effect of Class Distribution on Tree Induction. JAIR, 19:315–354.