Ana içeriğe atla

Kayıtlar

R Alıştırmaları #3

Titanik gemisindeki yolcuların veri seti bu serinin konusu olsun. Buradan train.csv veri setini indirebilirsiniz (önce giriş yapmanız gerekiyor).
1) Veri setini "titanik" ismi ile R'a yükleyin. *readr, read.csv, stringsAsFactors = TRUE. stringsAsFactors'ün ne işe yaradığını açıklayın.
2) Veri çerçevesindeki değişkenlerin tiplerini (numeric, character, ...) gösterin.
3) 1, 7, 8, 9, 11 ve 12. sütunu silin.
4) Başlıkları sırasıyla "hayatta_kalma", "sinif", "isim", "cinsiyet", "yas", "bilet_fiyat" olarak değiştirin.
5) "hayatta_kalma" ve "sinif" değişkenlerini sırasıyla "h01" ve "s123" olarak ayrı bir "titanik2" isimli veri çerçevesinde toplayın. Bunu kullanmayacağız-pasif kalacak. Amaç veri çerçevesinden veri çerçevesi çıkarmak.
6) Kaç tane NA var? NA'leri kaldır. *NA'leri bu kadar kolay harcamamak gerekiyor ama amaç böyle  bir kaldırma isteği seçeneğin…
En son yayınlar

Regresyonun genel anlamlılığı, ANOVA ve F testi

Daha önceden, TSS = ESS + RSS ya da TKT = AKT + KKT yazmıştık.
TKT'nin bu iki parçası olan AKT ve KKT'nin incelenmesi regresyon açısından varyans analizidir (analysis of variance-anova).
İki değişkenli regresyon modeli için anova tablosu:

SS: Kareler Toplamı, df: serbestlik derecesi, MSS: Ortalama Kareler Toplamı = SS/df = KT/sd

Bizim örneğimiz için anova tablosu R çıktısı olarak aşağıdaki gibidir:

Analysis of Variance Table
Response: data_1se$yasam DfSum SqMean SqF value Pr(>F) data_1se$guvenlik10.0251470.0251471.2726 0.3764 Residuals20.0395220.019761
AKT, yani güvenlik için;
X ortalama = 0.5952992
X1 = 0.4730095 - 0.5952992 = -0.1222897 X2 = 0.5323309 - 0.5952992 = -0.0629683 X3 = 0.6626013 - 0.5952992 = 0.0673021 X4 = 0.7132552 - 0.5952992 = 0.117956
Kareleri toplamı: (-0.1222897)2 + (-0.0629683)2 + (0.0673021)2 + (0.117956)2 = 0.03736297 bulduk. Formüle bakarsak bunu ^ß2'nin karesi ile çarpmamız gerekiyor. (^ß2)2 = (0.82039)2 = 0.6730398. Sonuç olarak, 0.03736297*0.6730398 = 0.0…

Hipotez ve yaklaşımlar, tek-çift kuyruk, p değeri, anlamlılık-önemlilik

Hipotez (hypothesis), bir veya daha çok kitlenin çeşitli özellikleri ile ilgili ileri sürülen bir iddiadır. Örneğin, "düzenli ve kısa aralıklarla yapılacak sınavlar başarı artırır" iddiası, başarı notları kitlesinin ortalaması ile ilgili bir iddiadır. Böyle bir hipotezi test etmek için yapılması gereken işlem, düzenli ve kısa aralıklarla sınav yapılan bir bölüm ile sadece dönem sonunda sınav yapılan bir diğer bölümün ortalama başarılarının karşılaştırılmasıdır. Bu işlem, her iki bölümden seçilecek öğrencilerin oluşturacağı bağımsız tesadüfi örneklerin ortalamalarına dayalı olarak gerçekleştirilir (Türedi).
İleri sürülen hipoteze sıfır hipotezi-H0 (null hypothesis) denir ve H1 denilen karşı hipoteze (alternative hypothesis) karşı sınanır.
2 yaklaşım vardır: Güven Aralığı (confidence interval) ve Anlamlılık Sınaması (test of significance).
1) Güven Aralığı yaklaşımı:
Örneğimizde, regresyon denklemini Ŷi = -0.03231 + 0.82039Xi olarak tahmin etmiştik. Burada eğim katsayısı 0.82039&#…

ß1, ß2 ve σ2 için Güven Aralığı

Önceki konularda örnek olarak kullandığımız güvenlik-yaşam endeksinde ^ß2'yi 0.82039 bulmuştuk (Ŷi = -0.03231 + 0.82039Xi). Bu değer, anakütlenin bilinmeyen katsayısı ß2'nin bir nokta tahminidir. Peki, bu tahmine ne kadar güvenebiliriz? Beklenti, E(^ß2) = ß2 olsa da, tekrarlanan örneklemlerde bu tahmin değeri gerçek değerden farklı çıkabilir.
İstatistikte bir nokta tahmin edicisinin güvenilirliği standart hatasıyla ölçülür. Öyleyse, yalnızca nokta tahminine güvenecek yerde, onun iki yanında iki ya da üç standart hata uzaklığı kadar uzanan öyle bir aralık oluşturabiliriz ki bu aralık, diyelim yüzde 95 olasılıkla anakütlenin gerçek katsayısını içersin. İşte aralık tahmininin (interval estimation) arkasında yatan düşünce kabaca budur (Gujarati-Porter).
Önemli (Gujarati-Porter):
i. Güven aralığı (confidence interval), ß2'nin verilen sınırlar arasında bulunma olasılığının 1-α (örneğin, %95) olduğunu söylemez. Çünkü ß2 bir bilinmeyen olmasına karşın sabit bir sayı olduğu varsay…

R'da Joy Plots ve GARAN hissesi dağılımı

Değişimi göstermek için görselleştirmede güzel bir yol daha. Joy Plots hem kısmen örtüşüyor hem de dağ sıraları izlenimi veriyor.
Joy Plots ile görselleştirmek için hem "ggplot2" & "ggthemes" hem de "ggjoy" paketlerinden yararlanacağız. Paketi iki şekilde yükleyebilirsiniz:

library(ggplot2)
library(ggthemes)
install.packages("ggjoy") library(ggjoy)
#ya da
library(devtools) #github projelerini getirmemizi sağlıyor install_github("clauswilke/ggjoy") #paketin sahibi Claus Wilke. I wrote a minimal R package to make joyplots with ggplot2.
Pull requests welcome. #rstatspic.twitter.com/5N9lc85Cvr — Claus Wilke (@ClausWilke) July 10, 2017 Elmasların karat ve fiyatlarının yer aldığı "diamonds" veri seti üzerinden örnek verilmiş.

Dikey eksen karatlara göre gruplandırılmış. Yatay eksende karatlara göre fiyatlar. Nihayet, Joy Plots ile dağılım.
Biz uygulamamızda Garanti Bankası'nın hissesi olan GARAN'ın en yüksek ve en küçük…

r-R Kare

Örneklem doğrusu verilere ne kadar iyi uyuyor? Eğer bütün gözlemler regresyon doğrusunun üzerindeyse tam uyuyor demektir. Bu nadirdir. Çoğu zaman göreceğimiz, doğrunun etrafında artı ve eksi ûi'ler olacak. İsteğimiz bunların mümkün mertebe küçük olmasıdır.
Belirlilik katsayısı (coefficient of determination r2-R2), örneklem regresyon doğrusunun verilere ne kadar iyi uyduğunu veren bir ölçüttür. r kare (r2): iki değişkenli; R kare (R2): çoklu.

Yi'deki değişimi iki bileşene ayırıyoruz.
Total Sum of Squares = Explained Sum of Squares + Residual Sum of Squares TSS = ESS + RSS Toplam Kareler Toplamı = Açıklanan Kareler Toplamı + Kalıntı Kareleri Toplamı TKT = AKT + KKT
Asıl Y değerlerinin kendi ortalaması etrafındaki oynaklığı = Tahmin edilmiş Y değerlerinin kendi ortalaması etrafındaki oynaklığı + Kalıntılar ya da Y değerlerinin regresyon doğrusu etrafındaki açıklanamayan oynaklığı.

r kareyi ya AKT/TKT ile bulacağız ya da 1 - (KKT/TKT) ile...
r kare; i. Eksi değer almaz. ii. 0 ile 1 …

Regresyonun Standart Hatası, Serbestlik Derecesi - 2

Veriler, örneklemler değiştikçe aynı kalmayacak; değişecektir. Bu durumda, ^ß1 ve ^ß2 tahmin edicilerinin güvenilirliğini/hassaslığını ölçmemiz gerekir. Bunu Standart Hata ile yapacağız.
Standart Hata (Standard Error), hata teriminin standart sapmasının tahmincisidir.

var: variance/varyans, se: standart error/hata, σ2 (sigma kare): ui'nin sabit varyansı (constant or homoscedastic variance of ui), n: gözlem sayısı.
σ2 şu formülle tahmin edilir: Σûi2/n-2. Karekök(Σûi2/n-2) tahminin standart hatasıdır (standard error of estimate).
Σûi2?
Kalıntı Kareleri Toplamı (RSS-Residual Sum of Squares).
n-2?
Bu işlem "serbestlik derecesi" düzeltmesi olarak bilinir; çünkü iki katsayı tahmin edilmiş (ß0 ve ß1) ve bunun sonucu iki serbestlik derecesi kaybedilmiştir. Sonuç olarak bu faktördeki payda n-2 dir. (Stock&Watson). Serbestlik derecesi (degrees of freedom) nedir?
Örnek, daha önce rassal olarak belirlediğimiz aşağıdaki tablo olsun:

Regresyonun standart hatası kaçtır?
Formül neydi? Karek…