Empirical Comparison of Methods of Data Discretization in Learning Probabilistic Models

Szczegóły
Opis

Tytuł:: Empirical Comparison of Methods of Data Discretization in Learning Probabilistic Models
Porównanie metod dyskretyzacji danych w uczeniu modeli probabilistycznych
Autorzy:: Wójciak, M.
Łupińska-Dubicka, A.
Tematy:: dyskretyzacja
zmienne typu ciągłego
modele probabilistyczne
sieci Bayesa
klasyfikacja
discretization
continuous feature
probabilistic models
Bayesian networks
classification
Data publikacji:: 2018
Wydawca:: Politechnika Białostocka. Oficyna Wydawnicza Politechniki Białostockiej
Język:: angielski
Prawa:: Wszystkie prawa zastrzeżone. Swoboda użytkownika ograniczona do ustawowego zakresu dozwolonego użytku
Źródło:: Advances in Computer Science Research; 2018, 14; 177-192
2300-715X
Dostawca treści:: Biblioteka Nauki
: Artykuł

Przejdź do źródła

Very often statistical method or machine learning algorithms can handle discrete attributes only. And that is why discretization of numerical data is an important part of the pre–processing. This paper presents the results of the problem of data discretization in learning quantitative part of probabilistic models. Four data sets taken from UCI Machine Learning Repository were used to learn the quantitative part of the Bayesian networks. The continuous variables were discretized using two supervised and two unsupervised discretization methods. The main goal of this paper was to study whether method of data discretization in given data set has an influence on model’s reliability. The accuracy was defined as the percentage of correctly classified records.

Bardzo często algorytmy uczenia maszynowego nie są przystosowane do korzystania ze zmiennych ciągłych. Z tego powodu dyskretyzacja danych jest istotną częścią wstępnego przetwarzania. W artykule przedstawiono wyniki prac nad problemem dyskretyzacji danych w uczeniu modeli probabilistycznych. Cztery zestawy danych pobrane z repozytorium uczenia maszynowego UCI zostały wykorzystane do nauczenia parametrów ilościowej części sieci bayesowskich. Występujące w wybranych zbiorach zmienne ciągłe były dyskretyzowane przy użyciu dwóch metod nadzorowanych i dwóch nienadzorowanych. Głównym celem tego artykułu było zbadanie, czy metoda dyskretyzacji danych w danym zbiorze ma wpływ na niezawodność modelu. Dokładność metod była definiowana jako odsetek poprawnie sklasyfikowanych rekordów.

Informacja

Empirical Comparison of Methods of Data Discretization in Learning Probabilistic Models