Comparison Of Partitioning And Consensus Methods For The Classification Of Musa spp. Germplasm
Main Article Content
Abstract
Este estudio evaluó y comparó métodos de agrupamiento particional y técnicas de consenso para la clasificación de genotipos de plátano (Musa spp.) del banco de germoplasma del Instituto de Investigaciones de Viandas Tropicales (Inivit). A partir de un conjunto de datos balanceado (336 accesiones y cuatro grupos genómicos principales), se integraron 42 variables cualitativas y siete cuantitativas mediante análisis multivariante. Las variables categóricas se transformaron con análisis de correspondencia múltiple y las cuantitativas se normalizaron, integrando ambos conjuntos mediante distancia Euclidiana. Se aplicaron algoritmos de K-medias (Hartigan-Wong, Lloyd, Forgy, MacQueen), PAM, CLARA y FANNY, y se utilizaron siete métodos de consenso para combinar los resultados. Los agrupamientos se evaluaron mediante coeficiente de Silueta, matrices de confusión, área bajo la curva y diversas métricas externas reconocidas, como la precisión global, el F1-score y el índice de Rand ajustado. Los análisis se ejecutaron en R, facilitando la integración de datos y el procesamiento estadístico. Este enfoque permitió comparar objetivamente la correspondencia entre las soluciones obtenidas y la clasificación biológica de referencia, proporcionando una valoración integral de la calidad y robustez de los métodos aplicados. Los métodos de consenso, en especial soft/symdiff y GV3, mostraron mayor precisión, robustez y correspondencia con la clasificación biológica de referencia, superando a los algoritmos individuales. Estos resultados más que contribuir directamente a la conservación, proporcionan un conocimiento más detallado de la variabilidad conservada y favorecen su uso más eficiente en estrategias de mejora y conservación. El procedimiento es escalable y potencialmente aplicable a otras colecciones de germoplasma, apoyando la utilización sostenible de los recursos fitogenéticos.
Article Details

This work is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License.
References
Borges, M.; L.M. González; N. Aguilera; B. Malaurie; J. Vázquez; Z. Infante y M. Fonseca. 2002. Aplicación de la estadística multivariada al estudio de la conservación in vitro de germoplasma de Dioscorea alata L. En Congreso Científico del INCA (13:2002, nov 12-15, La Habana) Memorias. CD-ROM. Instituto Nacional de Ciencias Agrícolas. ISBN 959-7023-22-9.
Benzécri, J.P. 1979. Sur l'analyse d'un tableau dont l'une des colonnes à un poids prédominant. Les cahiers de l'analyse des données, Volume 4 no.4, pp. 413-416.
Chawla, N.V.; K.W. Bowyer; l.O. Hall and W.P. Kegelmeyer. 2002. SMOTE: Synthetic Minority Over-sampling Technique. Journal of Artificial Intelligence Research, 16: 321-357.
Everitt, B.S.; S. Landau; M. Leese and D. Stahl. 2011. Cluster Analysis (5th ed.). Wiley.
Fawcett, T. 2003. ROC Graphs: Notes and Practical Considerations for Data Mining Researchers. Technical Report HPL-2003-4. Hewlett-Packard Laboratories, Palo Alto, California, Estados Unidos.
Forgy, E.W. 1965. Cluster analysis of multivariate data: efficiency vs interpretability of classifications. Biometrics, 21:768-769. Fowlkes, E.B. and C.L. Mallows. 1983. A method for comparing two hierarchical agrupamientos. Journal of the American Statistical Association, 78(383), 553-569. https://doi.org/10.1080/01621459.198 3.10478008.
Gatnar, E. and M. Walesiak. 2004. Metody statystycznej analizy wielowymiarowej w badaniach marketingowych. Wrocław: Wydawnictwo Akademii Ekonomicznej we Wrocławiu, 393 p.
Guttman, L. 1953. Image theory for the structure of quantitative variates. Psychometrika, 18, 277-296.
Greenacre, M.J. 1984. Theory and Applications of Correspondence Analysis. Pp.334. Academic Press, London.
Greenacre, M. 2017. Correspondence analysis in practice (3rd Ed.), pp. 74-76. Hartigan, J.A. and M.A. Wong. 1979. Algorithm AS 136: A K-means agrupamiento algorithm. Applied Statistics, 28:100-108.
Hastie, T.; R. Tibshirani and J. Friedman. 2009. The Elements of Statistical Learning: Data Mining, Inference, and Prediction (2nd ed.). Springer. Disponible en: https://web.stanford.edu/~hastie/Ele mStatLearn/.
Husson, F.; S. Le and J. Pagès. 2017. Exploratory multivariate analysis by example using R. CRC press, 15:1-60. Hornik, K.; C. Buchta and N. X. Vinh. 2023. clue: Cluster Ensembles (Version 0.3-65) [R package]. https://CRAN.R- project.org/package=clue.
Hubert, L. and P. Arabie. 1985. Comparing partitions. Journal of Classification, 2(1), 193-218. https://doi.org/10.1007/BF01908075.
IPGRI-INIBAP/CIRAD. 1996. Descriptores para el banano (Musa spp.). Instituto Internacional de Recursos Fitogenéticos, Roma, Italia; Red internacional para el mejoramiento del Banano y el Plátano, Montpellier, Francia; Centre de Coopération Internationale en Recherche Agronomique pour le Développement, Montpellier, Francia. ISBN 92-9043-307-8.
Jain, A.K. 2010. Data clustering: 50 years beyond K-means. Pattern Recognition Letters, 31(8), 651-666. https://doi.org/10.1016/j.patrec.2009. 09.011.
Kaufman, L. and P. J. Rousseeuw. 1990. Finding Groups in Data: An Introduction to Cluster Analysis. John Wiley & Sons, New York, 342 p.
Kaiser, H.F. 1960. The application of electronic computers to factor analysis. Educational and Psychological Measurement, 20, 141-151.
Kohavi, R. and F. Provost. 1998. Glossary of terms. Machine Learning, 30(2-3), 271-274. https://doi.org/10.1023/A:101718182 6899
Kuhn, H.W. 1955. The Hungarian method for the assignment problem. Naval Research Logistics Quarterly, 2(1–2), 83–97.
https://doi.org/10.1002/nav.3800020109
Kuhn, M. 2008. Building predictive models in R using the caret package. Journal of Statistical Software, 28(5), 1–26. https://www.jstatsoft.org/article/view/v 028i05.
Kuhn, M. and K. Johnson. 2013. Applied Predictive Modeling. Springer, New York. Kuhn, M.; D. Vaughan and J. Silge. 2024. Yardstick: Tidy Characterizations of Model Performance (Version 1.2.0) [R package]. https://yardstick.tidymodels.org/.
Lunardon, N.; G. Menardi y N. Torelli. 2014. ROSE: A Package for Binary Imbalanced Learning. The R Journal, 6(1): 79-89. DOI: 10.32614/RJ-2014-008.
Lloyd, S.P. 1982. Least squares quantization in PCM. IEEE Transactions on Information Theory, 28(2): 129-137.
Morejón, R.; H.D. Sandra y DE J.P. Noraida. 2002. Técnicas multivariadas en la clasificación morfoagronómica de genotipos de arroz (Oryza sativa L.) obtenidos en la estación experimental "Los Palacios". En Congreso Científico del INCA (13:2002, nov 12-15, La Habana) Memorias. CD-ROM. Instituto Nacional de Ciencias Agrícolas, 2002. ISBN 959-7023-22-9.
Milián, M.; Molina, O. and Y. Figueroa. 2018. Integrated Characterization of Cuban Germplasm of Cocoyam (Xanthosoma Sagittifolium (L.) Schott). Journal of Plant Genetics and Crop Research, 1(1):1-18.
Macqueen, J. 1967. Some methods for classification and analysis of multivariate observations. In: L. M. Le Cam y J. Neyman (eds.), Proceedings of the Fifth Berkeley Symposium on Mathematical Statistics and Probability, Vol. 1, University of California Press, Berkeley, pp. 281- 297.
Manning, C.D.; P. Raghavan and H. Schütze. 2008. Introduction to Information Retrieval. Cambridge University Press.
Meilă, M. 2003. Comparing clusterings by the variation of information. En: B. Schölkopf y M. K. Warmuth (eds.), Learning Theory and Kernel Machines (COLT/Kernel 2003, Washington, DC). Lecture Notes in Computer Science, vol. 2777. Springer, pp. 173–187.
Maechler, M.; P. Rousseeuw; A. Struyf; M. Hubert and K. Hornik. 2023. cluster: Cluster Analysis Basics and Extensions (Version 2.1.6) [R package]. https://CRAN.R- project.org/package=cluster.
Monti, S.; P. Tamayo; J. Mesirov and T. Golub. (2003). Consenso agrupamiento: a resampling-based method for class discovery and visualization of gene expression microarray data. Machine Learning, 52(1-2), 91-118. https://link.springer.com/article/10.10 23/A:1023949509487.
Provost, F. and T. Fawcett. 2001. Robust classification for imprecise environments. Machine Learning, 42(3), 203-231. https://doi.org/10.1023/A:100760101 5854.
Powers, D.M.W. 2011. Evaluation: From Precision, Recall and F-Measure to ROC, Informedness, Markedness & Correlation. Journal of Machine Learning Technologies, 2, 37–63.
R Core Team. 2024. R: A Language and Environment for Statistical Computing (version 4.3.3). R Foundation for Statistical Computing. Vienna, Austria.
Ruiz De Galarreta, J.I. 1998: Agrupación de poblaciones locales de maíz (Zea mays L.) mediante caracteres morfológicos y parámetros ambientales, Servicio de Publicaciones de la Universidad de Lleida, p.161.
Robin, X.; N. Turck; A. Hainard; N. Tiberti; F. Lisacek; J.C. Sánchez and M. Müller. 2011. pROC: an open-source package for R and S+ to analyze and compare ROC curves. BMC Bioinformatics, 12, 77. https://doi.org/10.1186/1471-2105-12-77
Rousseeuw, P.J. 1987. Silhouettes: A graphical aid to the interpretation and validation of cluster analysis. Journal of Computational and Applied Mathematics, 20, 53-65. https://doi.org/10.1016/0377- 0427(87)90125-7.
Shannon, C.E. 1948. A mathematical theory of communication. Bell System Technical Journal, 27(3), 379-423.
Strehl, A. and J. Ghosh. 2002. Cluster Ensembles - A Knowledge Reuse Framework for Combining Multiple Partitions. Journal of Machine Learning Research, 3, 583-617.
Saito, T. and M. Rehmsmeier. 2015. The precision-recall plot is more informative than the ROC plot when evaluating binary classifiers on imbalanced datasets. PLoS ONE, 10(3): e0118432. https://doi.org/10.1371/journal.pone.0118432
Swets, J.A.; R.M. Dawes and J. Monahan. 2000. Better decisions through science. Scientific American, 283(4), 82-87. https://www.jstor.org/stable/26058990.
Vega-Pons, S. and J. Ruiz-Shulcloper. 2011. A survey of agrupamiento ensemble algorithms. International Journal of Pattern Recognition and Artificial Intelligence, 25(3), 337–372. https://arxiv.org/abs/1105.1421.
Walesiak, M. and A. Dudek. 2020. clusterSim: Searching for Optimal
Agrupamiento Procedure for a Data Set (Version 0.49-2) [R package]. https://CRAN.R- project.org/package=clusterSim.
Wickham, H. and J. Bryan. 2023. R packages. "O'Reilly Media, Inc."
