Dicky's Karma (請到新網站): 資料分析

顯示具有 資料分析 標籤的文章。顯示所有文章

試題反應理論(Item Response Theory)中，需要看配適度(Fit)嗎？

從每個人在每個項目的實際得分(observed score)和該人該項目的預期得分(expected score)的差，除以變異數，可以得到這個資料點對模型的標準化的殘差(standardised residual)，把所有這些標準化的殘差平方後再求平均，就是未權重配適度均方(unweighted fit mean-squar)；若根據該資料點的變異數進行權重，則叫作權重配適度均方(weighted fit mean-square)。前者也叫outfit，因為它對極端值(outlier)相當敏感，如果高能力的人答錯簡單的題或低能力的人答對較難的題，則整個均方就會變大，資料和模型的配適就不好；後者又叫infit，因為其根據每個資料所能提供的資訊(information fit)進行權重，極端值的變異較小(例如：0.9*0.1或0.1*0.9，但中間的資訊較多(0.5*0.5)。

在項目反應理論(Item Response Theory)下，怎麼理解「難度」這個概念？三種取徑。

在項目反應理論(Item Response Theory)中，要描述一個項目的「難度」和古典測驗理論(classical test theory)有不一樣的方法。在古典測驗中，一個項目的「難度」被認為是參與答題者人中答對該項目的比率，越多人答對，難度越低。在項目反應理論中，我們可以從三個取逕來理解項目的難度。

在古典測驗理論(Classical Test Theory)中計算信度(reliability)

古典測驗理論(Classical Test Theory)中，存在一些假設：
一、Observed Scored = True Score + (Measurement) Error
X = T + E
二、mean(X) = T
三、Corr(E,T) = 0
四、Corr(E1,E2) = 0
五、Corr(E1,T2) = 0
如果平行測驗的兩次所觀察到的分數滿足上述五個假設，則兩次的真實分數(True Score)相等，兩次的van(E)相等。
van(E)為每一個題項(item)的變異數的總和。

使用R將預測變數的交互作用以圖形視覺化

當我們想要知道兩個變數之間是否存在交互作用時，可以使用下面函數產生視覺化的圖形加以輔助：

在R進行有兩個隨機因子以上的混合線性模式

交叉因子(crossed factor)和套疊因子(nested factor)的差別

在R進行重覆量數(repeated-measur)ANOVA

我們想知道「語境限制性」(context)和「接觸新詞的次數」(order)是否會影響學習者對於新詞的理解(meanbyid)。我們在R使用以下語法：

我讀《How Science Takes Stock: The Story of Meta-Analysis》：如果只看p值的話…

當p值小於.05的時候，進行假設檢定的人就可以推論實驗組和對照組有差異的機會在20次當中，只會有不到1次。而當我們真得遇見這樣的可能性時，我們就可以大膽地說實驗組和對照組確實存在差異。但是僅僅透過點估計(point estimate)，很可能因為抽樣誤差而對於實際的情況有誇張或不足的推論。只看統計顯著性的p值，是無法告訴我們差距大小。

在R進行兩比例值的比較

比例值資料是二項類別資料，族群資料之特徵只有兩種觀測值，如資料只有雌與雄、死與活、答對與答對。這些是沒有度量衡的測定單位。把其中一種特徵當成0，另一個特徵當成1，整個資料只有0和1兩種觀測值。這樣的族群稱為二項族群(Bernoulli population)。其平均數為p，而變方則為pq。

我讀陳振宇的《整合分析》：效應量

每一個研究假設都會產生一個研究結果(或者效果)，透過研究假設中兩個群體的比較，而且是有方向性預則的比較(可以是A大於B或B大於A，不可以只有A不等於B)，並將這些結果轉換為能夠與其它襄究比較的單位。一個最典型、最傳統，用於在同一個問題意識下，但是不同的研究假設和研究成果的就是「效應量」(effect size、ES或效果量)。

為什麼研究需要報告「效應值」（size effect）？因為型一錯誤和型二錯誤的不平衡

研究者在「虛無假設統計檢定」設定的顯著水準為0.05時，認為自己所做的推論犯錯的機會只有不到5%。然而，算進型二錯誤的話，犯錯的機會可能會提高。型二錯誤指的是真實的情況下，母體存在著差異，但是研究者卻做出了沒有差異的推論；與型二錯誤相對的就是統計檢定力(statistical power)，即母體存在差異，且研究者的樣本資料也發現顯著差異。在真實的情況下，母體中兩個比較的群體存在差異的，由於抽樣後觀察到的檢計量或p值落在拒絕域之外，即p值大於0.05，於是研究者宣稱無法拒絕虛無假設並推論兩個群體並不存在差異，這就犯了型二錯誤。增加樣本數就會降低型二錯誤。

我讀陳振宇的《整合分析》：「虛無假設統計檢定」的推論、作法與不足

研究者心裡面有一個所欲論述的假設(對立假設)，與之相反的就是虛無假設。研究者盡力收集證據的情況下，仍沒有足夠的證據能夠支持虛無假設時，研究者於是可以認為對立假設為真。通常，研究者所欲證實的假設，指的是某個變項所進行的操弄是有效果；而虛無假設則是操弄沒有效果。

訂閱：意見 (Atom)

網頁

試題反應理論(Item Response Theory)中，需要看配適度(Fit)嗎？

在項目反應理論(Item Response Theory)下，怎麼理解「難度」這個概念？三種取徑。

在古典測驗理論(Classical Test Theory)中計算信度(reliability)

使用R將預測變數的交互作用以圖形視覺化

在R進行有兩個隨機因子以上的混合線性模式

交叉因子(crossed factor)和套疊因子(nested factor)的差別

在R進行重覆量數(repeated-measur)ANOVA

我讀陳春敏、陳振宇的《實驗研究法》：單因子實驗設計和多因子實驗設計

我讀陳春敏、陳振宇的《實驗研究法》：實驗設計的基本術語

我讀《How Science Takes Stock: The Story of Meta-Analysis》：如果只看p值的話…

在R進行兩比例值的比較

我讀陳振宇的《整合分析》：效應量

為什麼研究需要報告「效應值」（size effect）？因為型一錯誤和型二錯誤的不平衡

我讀陳振宇的《整合分析》：「虛無假設統計檢定」的推論、作法與不足