Доклады Российской академии наук. Математика, информатика, процессы управления, 2023, T. 514, № 2, стр. 20-27

КАЛИБРОВКА ВЕРОЯТНОСТЕЙ С ПРИМЕНЕНИЕМ ТЕОРИИ НЕЧЕТКИХ МНОЖЕСТВ НА ПРИМЕРЕ УЛУЧШЕНИЯ РАННЕЙ ДИАГНОСТИКИ РАКА

О. А. Филимонова 1*, А. Г. Овсянников 1, Н. В. Бирюкова 1

1 ФГАОУ ВО Первый МГМУ им. И.М. Сеченова, Ресурсный центр “Медицинский Сеченовский Предуниверсарий”
Москва, Россия

* E-mail: olga.a.filimonova@gmail.com

Поступила в редакцию 29.08.2023
После доработки 06.09.2023
Принята к публикации 15.10.2023

Аннотация

Рак занимает лидирующие позиции в списке причин смерти людей возрастом до 70 лет. Важным шагом для снижения смертности является выявление заболевания на ранних стадиях. Для улучшения ранней диагностики рака мы предлагаем алгоритм калибровки вероятностей бинарных классификаторов с применением нечетких множеств. Наша идея проверена на распознавании рака молочной железы у женщин и рака легкого. Первый случай осложняется небольшим набором данных, второй – сильно несбалансированными данными. В обоих случаях наш метод калибровки вероятностей, в отличие от стандартных, улучшил логарифмическую потерю (лучший результат – на 48.86%), оценку Брайера (лучший результат – на 13.24%) и площадь под кривой Precision-Recall (лучший результат – на 13.94%). Сфера применения нашего алгоритма может быть расширена на любые прогрессирующие заболевания и события без четкой границы принадлежности.

Ключевые слова: калибровка вероятностей, теория нечетких множеств, бинарная классификация, ранняя диагностика заболеваний

Список литературы

  1. Sung H., Ferlay J., Siegel R. L., Laversanne M. et al. Global Cancer Statistics 2020: GLOBOCAN Estimates of Incidence and Mortality Worldwide for 36 Cancers in 185 Countries. In CA: A Cancer Journal for Clinicians. 2021. V. 71. Issue 3. P. 209–249. Wiley. https://doi.org/10.3322/caac.21660

  2. Steyerberg E.W. Clinical Prediction Models. A practical approach to development, validation and updating. New York: Springer, 2009. 508 c.

  3. Böken B. On the appropriateness of Platt scaling in classifier calibration. In Information Systems. 2021. V. 95. P. 101641. Elsevier BV. https://doi.org/10.1016/j.is.2020.101641

  4. Chakravarti N. Isotonic Median Regression: A Linear Programming Approach. Mathematics of Operations Research. 1989. V. 14. № 2. P. 303–308. http://www.jstor.org/stable/3689709

  5. Platt John. Probabilistic Outputs for Support Vector Machines and Comparisons to Regularized Likelihood Methods. Adv. Large Margin Classif. 2000. 10.

  6. Bianca Zadrozny, Charles Elkan. Obtaining calibrated probability estimates from decision trees and naive bayesian classifiers. In Proceedings of the Eighteenth International Conference on Machine Learning. 2001. P. 609–616.

  7. Naeini M.P., Cooper G.F., Hauskrecht M. Obtaining Well Calibrated Probabilities Using Bayesian Binning. Proc AAAI Conf Artif Intell. 2015 Jan; 2015. P. 2901–2907. PMID: 25927013; PMCID: PMC4410090.

  8. Zimmermann H.-J. Fuzzy Set Theory – and Its Applications. Springer Dordrecht, 2001. 514 c.

  9. Torres A., Nieto J.J. Fuzzy Logic in Medicine and Bioinformatics. In Journal of Biomedicine and Biotechnology. 2006. V. 2006. P. 1–7. Hindawi Limited. https://doi.org/10.1155/jbb/2006/91908

  10. Hassanien A. Fuzzy rough sets hybrid scheme for breast cancer detection. In Image and Vision Computing. 2007. V. 25. Issue 2. P. 172–183. Elsevier BV. https://doi.org/10.1016/j.imavis.2006.01.026

  11. Ghosh S.K., Mitra A., Ghosh A. A novel intuitionistic fuzzy soft set entrenched mammogram segmentation under Multigranulation approximation for breast cancer detection in early stages. In Expert Systems with Applications. 2021. V. 169. P. 114329. Elsevier BV. https://doi.org/10.1016/j.eswa.2020.114329

  12. Ghosh S.K., Ghosh A., Bhattacharyya S. Recognition of cancer mediating biomarkers using rough approximations enabled intuitionistic fuzzy soft sets based similarity measure. In Applied Soft Computing. 2022. V. 124. P. 109052. Elsevier BV. https://doi.org/10.1016/j.asoc.2022.109052

  13. Wang N., Yao W., Zhao Y., Chen X. Bayesian calibration of computer models based on Takagi–Sugeno fuzzy models. In Computer Methods in Applied Mechanics and Engineering. 2021. V. 378. P. 113724. Elsevier BV. https://doi.org/10.1016/j.cma.2021.113724

  14. Теория вероятностей : учебник для втузов / Печинкин А.В., Тескин О.И., Цветкова Г.М. и др.; ред. Зарубин В.С., Крищенко А.П. 3-е изд., испр. М.: Изд-во МГТУ им. Н.Э. Баумана, 2004. 455 с.

  15. Sadegh-Zadeh K. The Logic of Diagnosis. In Philosophy of Medicine. 2011. P. 357–424. Elsevier. https://doi.org/10.1016/b978-0-444-51787-6.50012-x

  16. Castaneda M., den Hollander, Kuburich N. et al. Mechanisms of cancer metastasis. In Seminars in Cancer Biology. 2022. V. 87. P. 17–31. Elsevier BV. https://doi.org/10.1016/j.semcancer.2022.10.006

  17. Beliakov G. Fuzzy sets and membership functions based on probabilities. In Information Sciences. 1996. V. 91. Issues 1–2. P. 95–111. Elsevier BV. https://doi.org/10.1016/0020-0255(95)00291-x

  18. Chen G., Pham T.T. Introduction to fuzzy sets, fuzzy logic, and fuzzy control systems. CRC Press. 2000. 329 c. ISBN 0-8493-1658-8

  19. Aresta G., Araújo T., Kwok S. et al. BACH: Grand challenge on breast cancer histology images. In Medical Image Analysis. 2019. V. 56. P. 122–139. Elsevier BV. https://doi.org/10.1016/j.media.2019.05.010

  20. Armato III, Samuel G., McLennan et al. Data From LIDC-IDRI (Version 4) [dataset]. The Cancer Imaging Archive. 2015. https://doi.org/10.7937/K9/TCIA.2015.LO9QL9SX

  21. National Lung Screening Trial Research Team. Data from the National Lung Screening Trial (NLST) (Version 3) [dataset]. The Cancer Imaging Archive. 2013. https://doi.org/10.7937/TCIA.HMQ8-J677

  22. Pinsky P.F. Lung cancer screening with low-dose CT: a world-wide view. In Translational Lung Cancer Research. 2018. V. 7. Issue 3. P. 234–242. AME Publishing Company. https://doi.org/10.21037/tlcr.2018.05.12

  23. Szegedy C., Vanhoucke V. et al. Rethinking the Inception Architecture for Computer Vision. In 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). 2016. https://doi.org/10.1109/cvpr.2016.308

  24. Davis J., Goadrich M. The relationship between Precision-Recall and ROC curves. In Proceedings of the 23rd international conference on Machine learning - ICML ’06. the 23rd international conference. ACM Press. 2006. https://doi.org/10.1145/1143844.1143874

  25. Küppers A. et al. Parametric and Multivariate Uncertainty Calibration for Regression and Object Detection. European Conference On Computer Vision (ECCV) Workshops. 2022. 10.

Дополнительные материалы отсутствуют.

Инструменты

Доклады Российской академии наук. Математика, информатика, процессы управления