Regresyon Analizinde Sağdan Sansürlü Veriler İçin Önerilen Çözüm Yöntemleri Üzerine Bir İnceleme
Özet
Sağdan sansürlü veri, başta klinik deneyler ve sağlık alanı olmak üzere biyoloji, endüstri, ekonomi, genetik ve bu alanlarla ilişkili birçok alanda karşımıza çıkmaktadır. Bu veri türünün en önemli karakteristik özelliği, ilgilenilen kişi veya nesne ile ilgili tamamlanmamış gözlemeler içermesidir. Modelleme çalışmalarında, tamamlanmamış gözlemler yanlı ve tutarsız sonuçlara neden olduğundan, bu sorunun çözülmesi için çeşitli yöntemler geliştirilmiştir. Bu çalışmada, literatürde var olan ve sağdan sansürlü verilerin modelleme sürecine dâhil olabilmesi için kullanılan birçok farklı yöntem incelenmiştir. Bu yöntemlerden bazıları; Kaplan-Meier ağırlıkları, Gaussian ve kNN yerine koyma yöntemi, Sentetik veri dönüşümleri olarak sıralanbilir. Genellikle, sağdan sansürlü veri noktaları bilinmediğinden veya kısmi olarak bilindiğinden, bu gözlemlere ait dağılımlar hakkında bazı varsayımlar kabul edilerek klasik istatistiksel analiz ve modelleme yöntemleri kullanılabilmektedir. Buna ek olarak, dağılım varsayımlarına dayanmayan bazı parametrik olmayan yöntemler kullanılarak da bu gözlemler tahmin edilebilmektedir. Bu iki ana başlık dışında, çok tercih edilmese de sansürlü veri noktalarının veri setinden atılması da mevcut yöntemlerden biri olarak söylenebilir. Bu çalışmada, önerilmiş en basit yöntemlerden en gelişmiş yöntemlere kadar, sağdan sansürlü verilerin regresyon analizine dâhil edilmesi için önerilen çözüm yöntemleri aşamalar halinde sunulmuştur ve bu yöntemlerin sansürün etkisini ne kadar yansıtabildiği anlatılmaya çalışılmıştır. Bu çalışmanın temel amacı, verilerin regresyon modeline eklenmesinden önce, verinin içerdiği sansür durumu için gerekli düzenlemelerin yapılmasını sağlayan yöntemlerin incelenmesidir. Elbette var olan bütün yöntemlerin incelenmesi mümkün olmadığından, literatürde en sık kullanılan yöntemler seçilmiştir. Right-censored data is encountered in many areas related to biology, industry, economics, genetics and related fields, primarily clinical trials and health field. The most important characteristic of this data type is that it contains incomplete observations of the person or object of interest. In modeling studies, as incomplete observations result in biased and inconsistent results, several methods have been developed to solve this problem. In this study, many different methods which are used in the literature to be included in the modeling process of right and censored data are examined. Some of these methods can be ordered as follows: Kaplan-Meier weights, Gaussian and kNN imputation methods and synthetic data transformations. Generally, since the censored data points are unknown or can be partially known, classical statistical analysis and modeling methods can be used by assuming some assumptions about the distributions of these observations. In addition, these observations can be estimated using some nonparametric methods which are not based on distribution assumptions. Apart from these two main headings, it is possible to say that the censored data points are removed from the data set even if they are not preferred. In this study, the proposed solution methods for inclusion of right-censored data into regression analysis are presented in stages, from the simplest methods to the most advanced methods, and it is tried to explain how these methods can reflect the effect of censorship. The main purpose of this study is to examine the methods that allow the necessary arrangements for the censorship of the data before the data is added to the regression model. Of course, it is not possible to examine all the existing methods, the most commonly used methods are selected in the literature.
Kaynak
Türkiye Klinikleri Biyoistatistik DergisiCilt
11Sayı
3Bağlantı
https://doi.org/10.5336/biostatic.2019-66838https://app.trdizin.gov.tr//makale/TXpNME16STNOdz09
https://hdl.handle.net/20.500.12809/8462