Dicky's Karma (請到新網站)

到曼谷租公寓，要備齊哪些生活必需品？到Big C去淘寶。

你可以說我住在曼谷，但準確地說，我是住曼谷北邊的暖武里省(นนทบุรี，Nonthaburi)的巴革區/縣(ปากเกร็ด，Pak Kret)的文建路上(ถนนแจ้งวัฒนะ，Chaeng Watthana Road)的小區裡頭的公寓。我住的公寓叫Diamond Place，每個月的租金是5500元，若需要冰箱和電視可另外租(月租500元)，枕頭、床單什麼都沒有，僅有床墊、書桌、梳妝台、鏡子、櫃子。

《大家來學泰語》第八課：日/月/年(補充教材)-วัน เดือน ปี

中介語(Interlanguage)是指從母语(L1)始至習得得第二語言(L2)止，其間經歷的一系列的語言過渡「階段」裡，所產生之「語言」。以學習泰語為目標的時候，我們就不必在意翻譯的「信、達、雅」，所以下面的華語注釋，可能會覺得不美、不通順。你可以把這些不美、不通順的注釋當成是中介語，因為它既不是華語，也不是泰語，但它是幫助我們學習泰語的。如果想找比較美的華語歌詞翻譯，可以看此部落格。

一個能夠搜尋平衡語料庫和華語文語料庫(COCT)的方法：透過CQP語法進行語料檢索

每每聽到「○○○語料庫『不好用』」的時候，「不好用」包含了許多可能性。它可能指的是語料庫的語料不夠多(數量)，也可能指的是語料庫所涵蓋的文體或範圍(質量)並非使用者所期待。學了一些入門的語料庫檢索的方法之後，我想大部分人在說「○○○語料庫『不好用』」這句話的時候，想表達的應該是「○○○語料庫(界面)的查詢功能『不好用』」。

中央研究院的平衡語料庫自2007年開始未再更新，而檢索界面看起來最後設計是在2013年，它透過勾選、搜尋框和下拉選單等網頁工具給人一種「很好用」的印象。國家教育研究院的華語文語料庫(COCT)則自2013年開始蒐集語料，其語料數量已經超過平衡語料庫，同時透過國教院語料索引典系統的設置，在同一個系統內，可以檢索不同的語料庫(目前開放的為中研院平衡語料庫4.0、COCT 口語語料庫、華語中介語語料庫、COCT 書面語語料庫)的語料。索引典系統還「不太好用」，因為它還不能透過人類直觀的感覺去進行查詢，使用者必須學習電腦的語言(Simple Query或Corpus Query Processor, CQP)，才能找到符合要求的語料。

在CQP的表示式中，
[word="把" & (pos="Nf" | pos="Na")]
的意思是查詢「把」這個詞中，屬於詞性是Nf和Na的語料。Nf和Na就是語料庫中，透過斷詞系統或人工檢查所標註的詞性，中研院詞類標記列表有所標註的代號。

CQP包含下面萬用字：

[word="好高.遠"]
.代替一個字

[word="哈*"]
*前字重覆0~n次

[word="副.+"]
+前字重覆0~n次

[word="[台臺]灣"]
[AB..]任選一個字

[word="一[^百千萬]二[^百千萬]"]
[^AB...]否定一組字

[word="(台北|高雄)市"]
"(X|Y)Z"任選一組字

根據上面的表示式和萬用字，我們可以就可以對電腦說很多話。假設我現在要查四字格裡頭，第一個字是「生」，第二個字是「死」的時候，我就可以用以下表示式：
[word="...."&char(word,0)="生"&char(word,1)="死"]
同理，我可以請電腦幫我找，第一個字是「生」，第三個字是「死」
[word="...."&char(word,0)="生"&char(word,2)="死"]
第一個字是「生」，第四個字是「死」
[word="...."&char(word,0)="生"&char(word,3)="死"]
第二個字是「生」，第三個字是「死」
[word="...."&char(word,1)="生"&char(word,2)="死"]
第二個字是「生」，第四個字是「死」
[word="...."&char(word,1)="生"&char(word,3)="死"]
第三個字是「生」，第四個字是「死」
[word="...."&char(word,2)="生"&char(word,3)="死"]

接著我可以用|把上面這些條件取聯集，我就得到一個「四字格裡頭，包含『生』和『死』兩個字，而且『生』在前面，『死』在後面」的表示式
[word="...."&char(word,0)="生"&char(word,1)="死"]|[word="...."&char(word,0)="生"&char(word,2)="死"]|[word="...."&char(word,0)="生"&char(word,3)="死"]|[word="...."&char(word,1)="生"&char(word,2)="死"]|[word="...."&char(word,1)="生"&char(word,3)="死"]|[word="...."&char(word,2)="生"&char(word,3)="死"]

跟日本人說話，我們要用日語；跟泰國人說話，我們要用泰語；跟語料庫說話，我們可以用第四代語料庫語言CQP。當然，有時候找個日語翻譯或泰語翻譯也是解決溝通上的方法，而和語料庫溝通的翻譯就是那些擁有資工專長的人們。

CQP的使用可以參考中國外語教育研究中心許家金的使用手冊。

試題反應理論(Item Response Theory)中，需要看配適度(Fit)嗎？

從每個人在每個項目的實際得分(observed score)和該人該項目的預期得分(expected score)的差，除以變異數，可以得到這個資料點對模型的標準化的殘差(standardised residual)，把所有這些標準化的殘差平方後再求平均，就是未權重配適度均方(unweighted fit mean-squar)；若根據該資料點的變異數進行權重，則叫作權重配適度均方(weighted fit mean-square)。前者也叫outfit，因為它對極端值(outlier)相當敏感，如果高能力的人答錯簡單的題或低能力的人答對較難的題，則整個均方就會變大，資料和模型的配適就不好；後者又叫infit，因為其根據每個資料所能提供的資訊(information fit)進行權重，極端值的變異較小(例如：0.9*0.1或0.1*0.9，但中間的資訊較多(0.5*0.5)。