Comparison Of Partitioning And Consensus Methods For The Classification Of Musa spp. Germplasm

Main Article Content

Osmany Molina Concepción
Lianet Gonzáles Díaz
Yaselis Guillen López
Carmen C. Pons Pérez

Abstract

Este estudio evaluó y comparó métodos de agrupamiento particional y técnicas de consenso para la clasificación de genotipos de plátano (Musa spp.) del banco de germoplasma del Instituto de Investigaciones de Viandas Tropicales (Inivit). A partir de un conjunto de datos balanceado (336 accesiones y cuatro grupos genómicos principales), se integraron 42 variables cualitativas y siete cuantitativas mediante análisis multivariante. Las variables categóricas se transformaron con análisis de correspondencia múltiple y las cuantitativas se normalizaron, integrando ambos conjuntos mediante distancia Euclidiana. Se aplicaron algoritmos de K-medias (Hartigan-Wong, Lloyd, Forgy, MacQueen), PAM, CLARA y FANNY, y se utilizaron siete métodos de consenso para combinar los resultados. Los agrupamientos se evaluaron mediante coeficiente de Silueta, matrices de confusión, área bajo la curva y diversas métricas externas reconocidas, como la precisión global, el F1-score y el índice de Rand ajustado. Los análisis se ejecutaron en R, facilitando la integración de datos y el procesamiento estadístico. Este enfoque permitió comparar objetivamente la correspondencia entre las soluciones obtenidas y la clasificación biológica de referencia, proporcionando una valoración integral de la calidad y robustez de los métodos aplicados. Los métodos de consenso, en especial soft/symdiff y GV3, mostraron mayor precisión, robustez y correspondencia con la clasificación biológica de referencia, superando a los algoritmos individuales. Estos resultados más que contribuir directamente a la conservación, proporcionan un conocimiento más detallado de la variabilidad conservada y favorecen su uso más eficiente en estrategias de mejora y conservación. El procedimiento es escalable y potencialmente aplicable a otras colecciones de germoplasma, apoyando la utilización sostenible de los recursos fitogenéticos.

Article Details

How to Cite
Molina Concepción, O., Gonzáles Díaz, L., Guillen López , Y., & Pons Pérez, C. C. (2025). Comparison Of Partitioning And Consensus Methods For The Classification Of Musa spp. Germplasm. Agricultura Tropical, 11(1-2). Retrieved from https://agriculturatropical.edicionescervantes.com/index.php/inivit/article/view/252
Section
Artículos originales

References

Borges, M.; L.M. González; N. Aguilera; B. Malaurie; J. Vázquez; Z. Infante y M. Fonseca. 2002. Aplicación de la estadística multivariada al estudio de la conservación in vitro de germoplasma de Dioscorea alata L. En Congreso Científico del INCA (13:2002, nov 12-15, La Habana) Memorias. CD-ROM. Instituto Nacional de Ciencias Agrícolas. ISBN 959-7023-22-9.

Benzécri, J.P. 1979. Sur l'analyse d'un tableau dont l'une des colonnes à un poids prédominant. Les cahiers de l'analyse des données, Volume 4 no.4, pp. 413-416.

Chawla, N.V.; K.W. Bowyer; l.O. Hall and W.P. Kegelmeyer. 2002. SMOTE: Synthetic Minority Over-sampling Technique. Journal of Artificial Intelligence Research, 16: 321-357.

Everitt, B.S.; S. Landau; M. Leese and D. Stahl. 2011. Cluster Analysis (5th ed.). Wiley.

Fawcett, T. 2003. ROC Graphs: Notes and Practical Considerations for Data Mining Researchers. Technical Report HPL-2003-4. Hewlett-Packard Laboratories, Palo Alto, California, Estados Unidos.

Forgy, E.W. 1965. Cluster analysis of multivariate data: efficiency vs interpretability of classifications. Biometrics, 21:768-769. Fowlkes, E.B. and C.L. Mallows. 1983. A method for comparing two hierarchical agrupamientos. Journal of the American Statistical Association, 78(383), 553-569. https://doi.org/10.1080/01621459.198 3.10478008.

Gatnar, E. and M. Walesiak. 2004. Metody statystycznej analizy wielowymiarowej w badaniach marketingowych. Wrocław: Wydawnictwo Akademii Ekonomicznej we Wrocławiu, 393 p.

Guttman, L. 1953. Image theory for the structure of quantitative variates. Psychometrika, 18, 277-296.

Greenacre, M.J. 1984. Theory and Applications of Correspondence Analysis. Pp.334. Academic Press, London.

Greenacre, M. 2017. Correspondence analysis in practice (3rd Ed.), pp. 74-76. Hartigan, J.A. and M.A. Wong. 1979. Algorithm AS 136: A K-means agrupamiento algorithm. Applied Statistics, 28:100-108.

Hastie, T.; R. Tibshirani and J. Friedman. 2009. The Elements of Statistical Learning: Data Mining, Inference, and Prediction (2nd ed.). Springer. Disponible en: https://web.stanford.edu/~hastie/Ele mStatLearn/.

Husson, F.; S. Le and J. Pagès. 2017. Exploratory multivariate analysis by example using R. CRC press, 15:1-60. Hornik, K.; C. Buchta and N. X. Vinh. 2023. clue: Cluster Ensembles (Version 0.3-65) [R package]. https://CRAN.R- project.org/package=clue.

Hubert, L. and P. Arabie. 1985. Comparing partitions. Journal of Classification, 2(1), 193-218. https://doi.org/10.1007/BF01908075.

IPGRI-INIBAP/CIRAD. 1996. Descriptores para el banano (Musa spp.). Instituto Internacional de Recursos Fitogenéticos, Roma, Italia; Red internacional para el mejoramiento del Banano y el Plátano, Montpellier, Francia; Centre de Coopération Internationale en Recherche Agronomique pour le Développement, Montpellier, Francia. ISBN 92-9043-307-8.

Jain, A.K. 2010. Data clustering: 50 years beyond K-means. Pattern Recognition Letters, 31(8), 651-666. https://doi.org/10.1016/j.patrec.2009. 09.011.

Kaufman, L. and P. J. Rousseeuw. 1990. Finding Groups in Data: An Introduction to Cluster Analysis. John Wiley & Sons, New York, 342 p.

Kaiser, H.F. 1960. The application of electronic computers to factor analysis. Educational and Psychological Measurement, 20, 141-151.

Kohavi, R. and F. Provost. 1998. Glossary of terms. Machine Learning, 30(2-3), 271-274. https://doi.org/10.1023/A:101718182 6899

Kuhn, H.W. 1955. The Hungarian method for the assignment problem. Naval Research Logistics Quarterly, 2(1–2), 83–97.

https://doi.org/10.1002/nav.3800020109

Kuhn, M. 2008. Building predictive models in R using the caret package. Journal of Statistical Software, 28(5), 1–26. https://www.jstatsoft.org/article/view/v 028i05.

Kuhn, M. and K. Johnson. 2013. Applied Predictive Modeling. Springer, New York. Kuhn, M.; D. Vaughan and J. Silge. 2024. Yardstick: Tidy Characterizations of Model Performance (Version 1.2.0) [R package]. https://yardstick.tidymodels.org/.

Lunardon, N.; G. Menardi y N. Torelli. 2014. ROSE: A Package for Binary Imbalanced Learning. The R Journal, 6(1): 79-89. DOI: 10.32614/RJ-2014-008.

Lloyd, S.P. 1982. Least squares quantization in PCM. IEEE Transactions on Information Theory, 28(2): 129-137.

Morejón, R.; H.D. Sandra y DE J.P. Noraida. 2002. Técnicas multivariadas en la clasificación morfoagronómica de genotipos de arroz (Oryza sativa L.) obtenidos en la estación experimental "Los Palacios". En Congreso Científico del INCA (13:2002, nov 12-15, La Habana) Memorias. CD-ROM. Instituto Nacional de Ciencias Agrícolas, 2002. ISBN 959-7023-22-9.

Milián, M.; Molina, O. and Y. Figueroa. 2018. Integrated Characterization of Cuban Germplasm of Cocoyam (Xanthosoma Sagittifolium (L.) Schott). Journal of Plant Genetics and Crop Research, 1(1):1-18.

Macqueen, J. 1967. Some methods for classification and analysis of multivariate observations. In: L. M. Le Cam y J. Neyman (eds.), Proceedings of the Fifth Berkeley Symposium on Mathematical Statistics and Probability, Vol. 1, University of California Press, Berkeley, pp. 281- 297.

Manning, C.D.; P. Raghavan and H. Schütze. 2008. Introduction to Information Retrieval. Cambridge University Press.

Meilă, M. 2003. Comparing clusterings by the variation of information. En: B. Schölkopf y M. K. Warmuth (eds.), Learning Theory and Kernel Machines (COLT/Kernel 2003, Washington, DC). Lecture Notes in Computer Science, vol. 2777. Springer, pp. 173–187.

Maechler, M.; P. Rousseeuw; A. Struyf; M. Hubert and K. Hornik. 2023. cluster: Cluster Analysis Basics and Extensions (Version 2.1.6) [R package]. https://CRAN.R- project.org/package=cluster.

Monti, S.; P. Tamayo; J. Mesirov and T. Golub. (2003). Consenso agrupamiento: a resampling-based method for class discovery and visualization of gene expression microarray data. Machine Learning, 52(1-2), 91-118. https://link.springer.com/article/10.10 23/A:1023949509487.

Provost, F. and T. Fawcett. 2001. Robust classification for imprecise environments. Machine Learning, 42(3), 203-231. https://doi.org/10.1023/A:100760101 5854.

Powers, D.M.W. 2011. Evaluation: From Precision, Recall and F-Measure to ROC, Informedness, Markedness & Correlation. Journal of Machine Learning Technologies, 2, 37–63.

R Core Team. 2024. R: A Language and Environment for Statistical Computing (version 4.3.3). R Foundation for Statistical Computing. Vienna, Austria.

Ruiz De Galarreta, J.I. 1998: Agrupación de poblaciones locales de maíz (Zea mays L.) mediante caracteres morfológicos y parámetros ambientales, Servicio de Publicaciones de la Universidad de Lleida, p.161.

Robin, X.; N. Turck; A. Hainard; N. Tiberti; F. Lisacek; J.C. Sánchez and M. Müller. 2011. pROC: an open-source package for R and S+ to analyze and compare ROC curves. BMC Bioinformatics, 12, 77. https://doi.org/10.1186/1471-2105-12-77

Rousseeuw, P.J. 1987. Silhouettes: A graphical aid to the interpretation and validation of cluster analysis. Journal of Computational and Applied Mathematics, 20, 53-65. https://doi.org/10.1016/0377- 0427(87)90125-7.

Shannon, C.E. 1948. A mathematical theory of communication. Bell System Technical Journal, 27(3), 379-423.

Strehl, A. and J. Ghosh. 2002. Cluster Ensembles - A Knowledge Reuse Framework for Combining Multiple Partitions. Journal of Machine Learning Research, 3, 583-617.

Saito, T. and M. Rehmsmeier. 2015. The precision-recall plot is more informative than the ROC plot when evaluating binary classifiers on imbalanced datasets. PLoS ONE, 10(3): e0118432. https://doi.org/10.1371/journal.pone.0118432

Swets, J.A.; R.M. Dawes and J. Monahan. 2000. Better decisions through science. Scientific American, 283(4), 82-87. https://www.jstor.org/stable/26058990.

Vega-Pons, S. and J. Ruiz-Shulcloper. 2011. A survey of agrupamiento ensemble algorithms. International Journal of Pattern Recognition and Artificial Intelligence, 25(3), 337–372. https://arxiv.org/abs/1105.1421.

Walesiak, M. and A. Dudek. 2020. clusterSim: Searching for Optimal

Agrupamiento Procedure for a Data Set (Version 0.49-2) [R package]. https://CRAN.R- project.org/package=clusterSim.

Wickham, H. and J. Bryan. 2023. R packages. "O'Reilly Media, Inc."