Evaluación integrada de calidad y balance de datos en germoplasma de malanga mediante conjuntos aproximados y métricas multidimensionales

Contenido principal del artículo

Osmany Molina Concepción
Alain Jiménez Medina
Yaselis Guillen López
Carmen C. Pons Pérez

Resumen

La calidad y el balance de datos en bancos de germoplasma vegetal son aspectos fundamentales para garantizar su utilidad en aplicaciones críticas como el fitomejoramiento y la conservación de recursos genéticos. Este estudio aborda estos desafíos mediante la combinación de dos enfoques metodológicos innovadores. En primer lugar, se aplicó la Teoría de Conjuntos Aproximados (Rough Sets Theory, RST) para evaluar métricas clave de calidad de datos: completitud, consistencia y precisión. Estas métricas permiten identificar inconsistencias, priorizar atributos relevantes y garantizar la confiabilidad de los datos. En segundo lugar, se propuso un marco multidimensional para evaluar el balance de clases mediante cinco métricas cuantitativas complementarias: Ratio de desbalance, Coeficiente de variación, Índice de Gini, Índice de Theil y entropía normalizada. Este enfoque integral permite una evaluación rigurosa de la distribución de clases. El análisis se realizó sobre un conjunto de datos de germoplasma de malanga. Los análisis se implementaron en R, utilizando paquetes especializados como RoughSets para RST y funciones personalizadas para el cálculo de métricas de balance. La integración de ambos enfoques ofrece una herramienta robusta y reproducible para mejorar la gestión de datos de germoplasma vegetal. Este estudio contribuye al desarrollo de estrategias más efectivas para la conservación y el aprovechamiento sostenible de recursos genéticos, con aplicaciones directas en investigación agrícola, biotecnología y programas de biodiversidad.

Detalles del artículo

Cómo citar
Molina Concepción, O., Jiménez Medina, A., Guillen López, Y., & Pons Pérez, C. C. (2025). Evaluación integrada de calidad y balance de datos en germoplasma de malanga mediante conjuntos aproximados y métricas multidimensionales. Agricultura Tropical, 11(1-2). Recuperado a partir de https://agriculturatropical.edicionescervantes.com/index.php/inivit/article/view/244
Sección
Artículos originales
Biografía del autor/a

Osmany Molina Concepción, Instituto de Investigaciones de Viandas Tropicales (INIVIT)

Ing. en Máquinas Computadoras, Investigador Auxiliar,  Bioinformatica, INIVIT.

Citas

Alves Júnior, J.G.V.; N.F. Leite; J.B. Guimarães; J.A.L. Marques; S.S. Ribeiro; A.R.D. Alexandria. 2025. Rough Set Theory Applied to Feature Selection. In: Zhang, Q., et al. (Eds.), Rough Sets. IJCRS 2025. Lecture Notes in Computer Science (LNAI), vol 15709. Springer, Cham. pp. 91-107. https://doi.org/10.1007/978-3-031-92744-7_7.
Branco, P.; L. Torgo and R. Ribeiro. 2016. A survey of predictive modeling on imbalanced domains. ACM Computing Surveys, 49(2): 31. DOI: https://doi.org/10.1145/2907070.
Ceriani, L. and P. Verme. 2022. The origins of the Gini index: A historical study of the formulation of the Gini coefficient. Journal of Economic Inequality, 20(3): 45-67. DOI: https://doi.org/10.1007/s10888-021-09512-8.
Cowell, F. A. 2011. Measuring Inequality (3rd ed.). Oxford University Press. ISBN: 978-0-19-959404-7.
Chawla, N. V.; K. W. Bowyer; L. O. Hall and W. P. Kegelmeyer. 2002. SMOTE: Synthetic Minority Over-sampling Technique. Journal of Artificial Intelligence Research (JAIR), 16: 321–357. DOI: 10.1613/jair.953.
FAO. 2010. The Second Report on the State of the World’s Plant Genetic Resources for Food and Agriculture. Roma. ISBN 978-92-5-106534-2. https://www.fao.org/3/i1500e/i1500e.pdf.
FAO. 2019. The State of the World’s Biodiversity for Food and Agriculture. Rome. ISBN 978-92-5-131270-4.
García, M.; J. Pérez and A. López. 2022. Machine learning applications in biodiversity conservation: A review. Ecological Informatics, 70: 101725. DOI: https://doi.org/10.1016/j.ecoinf.2022.101725.
García, V.; J. Sánchez; R. Mollineda and F. Herrera. 2021. Learning from imbalanced data in species distribution modeling. Ecological Informatics, 64:101365. DOI: 10.1016/j.ecoinf.2021.101365.
González, R.; M. Fernández and J. Pérez. 2021. Data quality in plant germplasm banks: A systematic review. Genetic Resources and Crop Evolution, 68(3):1235–1248. DOI: 10.1007/s10722-020-01058-4.
Janusz A.; L.S. Riza; A. Janusz; D. Ślęzak; C. Cornelis and F. Herrera. 2024. RoughSets: Data Analysis Using Rough Set and Fuzzy Rough Set Theories. R package version 1.3-8, https://CRAN.R-project.org/package=RoughSets.
Riza LS, Janusz A, Ślęzak D, Cornelis C, Herrera F. 2024. RoughSets: Data Analysis Using Rough Set and Fuzzy Rough Set Theories [Computer software]. Version X.X.X; YEAR. Available from: https://cran.r-project.org/package=RoughSets
Milián, M. 2008. Caracterización de la variabilidad de los cultivares de la colección cubana de germoplasma del género Xanthosoma (Araceae). Tesis para aspirar al grado de Doctor en Ciencias Biológicas, Ciudad de la Habana. 123 p.
Milián, M.; O. Molina and Y. Figueroa. 2018. Integrated Characterization of Cuban Germplasm of Cocoyam (Xanthosoma Sagittifolium (L.) Schott). Journal of Plant Genetics and Crop Research,1(1):1–18.
Pawlak, Z. 1982. Rough sets. International Journal of Computer & Information Sciences, 11(5): 341-356. DOI: https://doi.org/10.1007/BF01001956.
R Core Team. 2023. R: A language and environment for statistical computing. R Foundation. URL: https://www.R-project.org .
Shannon, C.E. 1948. A mathematical theory of communication. Bell System Technical Journal, 27(3): 379-423.
Singh, R.; S. Kumar and P. Sharma. 2023. Data quality challenges in germplasm banks: A review. Journal of Agricultural Informatics, 14(2): 45-67.
Sudha, D. and M. Krishnamurthy. 2024. A fuzzy rough set-based horse herd optimization algorithm for Map Reduce framework for customer behavior data. Knowledge and Information Systems, 66, 4721-4753. https://doi.org/10.1007/s10115-024-02105-7
Theil, H. 1967. Economics and Information Theory. 1ra ed. Amsterdam: North-Holland Publishing Company. ISBN 978-0444003649.
Wickham, H.; M. Çetinkaya-Rundel and G. Grolemund. 2017. R for Data Science: Import, Tidy, Transform, Visualize, and Model Data. O’Reilly Media. https://r4ds.hadley.nz/