跳到主要內容

CocoaCKIPClient 中研院斷詞系統Mac客戶端程式


自然語言處理系統最基本需要讓電腦能夠分辨文本中字詞的意義,才能夠更進一步發展出自然語言處理系統的相關演算法。其中斷詞處理便是一個重要的前置技術,而中研院的斷詞系統便是一個處理中文斷詞的系統。現階段,中研院的斷詞系統客戶端能找到的有JavaPHPRuby、和C#的,但卻沒找到Objective-C的應用,只好自己包一個簡易的API來用。現在,我把結果放在CocoaCKIPClient的專案裡面。

中研院的斷詞系統用的是TCP socket將資料由客戶端傳一個特定的XML到伺服器,並由伺服器傳回XML結果。CocoaAsyncSocket是個處理socket連線的API,CocoaCKIPClient用了這個API來處理這些TCP socket的連線。CocoaAsyncSocket需要Security.framework,要記得在Xcode專案裡頭加進去。

另一個問題,就是要去產生要送出的XML,並且處理中研院斷詞系統伺服器傳回來的XML。中研院的斷詞系統可以接受Big5或UTF-16編碼的XML,但是傳回的XML卻是Big5編碼的。無論是哪一種編碼,和NSString預設用的UTF-8都不一樣,需要進行轉換。希望以後中研院那邊可以更新編碼,至少要傳回的XML要是unicode編碼的吧!

上述兩項工作就是各式CKIP客戶端程式所要做的工作,我的CocoaCKIPClient只不過是用Objective-C將上述兩個工作給包起來而已。

使用方法
[CKIP *ckip = [CKIP alloc] initWithDelegate:self username:@"username" password:@"password"];
[ckip setRawText:@"這行是要被斷詞的資料"];
[ckip performCKIP];
資料回傳後,可以用delegate方法 ckip:didReceiveProcessStatus:code: 先檢查回傳資料是否有問題。
  • code=0 表示成功,可以開始處理斷詞的結果;
  • code=1 表示伺服器內部發生錯誤,可能是由不預期的字元或是過於複雜的句子結構所造成; 
  • code=2 表示接收到的XML格式有錯誤; 
  • code=3 表示帳號或密碼錯誤。

資料的回傳用的是delegate方法 ckipDidFinish:
只輸出分詞:
NSMutableArray *terms = [NSMutableArray new];
for (NSDictionary *t in [ckip terms]) {
    [terms addObject:[NSString stringWithFormat:@"%@\t%@", [t objectForKey:@"term"], [t objectForKey:@"tag"]]];
}
[textView setString:[terms componentsJoinedByString:@"\n"]];


輸出分詞後的句子:
[textView setString:[[ckip sentences] componentsJoinedByString:@"\n"]];


其餘的應用細節,請看CocoaCKIPClient的範例程式。當然,你也可以直接下載這個專案來試用。

注意:中研院的伺服器每天早上六點進行維護,每次大概約半個鐘頭,這段時間可能無法連線。

留言

熱門文章

差不多食譜:手工巧克力餅乾 Chocolate Cookies

又是手工餅乾,最近一連出了兩份餅乾食譜,這個「手工巧克力餅乾」已經是第三份了。會不會有更多呢?我可以告訴大家,這是肯定的。 要怪就怪這個陰鬱的冬季雨天,哪裡都不方便去,也懶得出去。餅乾櫃空在那邊已經很久了,雖然有時候會嘴饞,但也沒有迫切去補貨的必要。反正經常開伙,平常該有的材料都會有,自己弄個成分完全透明的零食,也是個不錯的選擇。再說,用烤箱進行烘焙時,房間會變得比較乾燥,也比較溫暖。在夏天是個折磨,但到了冬天,這種感覺還滿不錯的。 話不多說,開始進行這一道「手工巧克力餅乾」的準備工作。

【豐原大蔥】免揉大蔥佛卡夏 No-knead Leek Focaccia - 差不多食譜

「豐原大蔥」的第二道食譜,就做 大蔥馬鈴薯濃湯 那篇提到的「大蔥佛卡夏」,而且用的還是懶人的免揉方法。不光是麵包,這份食譜還有一個衍生的副產品「大蔥油」,靈感來源就是蔥油拌麵。接著就來看看我是怎麼做的吧! 「大蔥佛卡夏」差不多需要這些材料:(20cm鑄鐵鍋) 豐原大蔥 ...... 1根 橄欖油 …… 適量(150ml左右) 高筋麵粉 …… 200g 鹽 …… 2g 酵母粉 …… 2-3g 水 …… 180-200g 「大蔥佛卡夏」差不多是這麼做的: Step 1. 製作「大蔥油」 說來你可能不相信,製作「大蔥佛卡夏」的「大蔥油」,靈感竟是來自於蔥油拌麵。但是大蔥油製作時需要人在旁邊顧著,而且炸過的大蔥也會拌進麵團裡面,正式製作佛卡夏前就先把這個大蔥油做好。 用小蔥製作蔥油的時候,只有切段丟進油裡去炸。可是我打算把炸過的大蔥一起揉到麵包裡,大蔥纖維比較不好咬斷,就先用刀子給它切碎。要注意的是,這裡我只用蔥白,以及稍微有點厚度的蔥綠,也就是蔥白和蔥綠交界那邊。 接下來,把切碎的大蔥放入鍋中,並倒入橄欖油,用中小火慢慢去炸大蔥。我不想要麵包裡黑黑的,所以炸到大蔥變軟,香味散出,顏色稍微黃一點的時候就可以關火,並將炸過的大蔥撈出放涼。 剩下的油就是大蔥油了,留下來炒菜、拌麵都很不錯。 Step 2. 製作佛卡夏麵團 拿個大碗,倒入高筋麵粉、鹽巴、酵母,再加上水攪拌成團。不用揉,只要成團就可以。 Step 3. 拌入大蔥發酵 往麵團中放入炸過而且放涼的大蔥,用湯匙或筷子拌進麵團。如果你的大蔥瀝的比較乾,再多補一兩匙大蔥油進去。當然,我這種差不多的作法,盛大蔥的碗底就差不多有一兩匙大蔥油了,整碗直接倒進去就好。 拌好後,找個蓋子蓋起來,室溫放一兩個鐘頭進行基礎發酵。也可以直接放進冰箱發酵,隔天再拿出來處理,就像其他的免揉麵包一樣。 Step 4. 移到烤盤 發酵完成,就可以把麵團轉移到烤盤上。我懶得洗鍋子,直接拿炸大蔥油的那個鑄鐵鍋當作烤盤來用。先在鑄鐵鍋(烤盤)底部抹些油,再灑些鹽巴,這樣麵包烤好之後表面就可以咬到一點鹹味。 接著就把麵團直接搬到烤盤,淋點大蔥油,開始用手指戳出佛卡夏特有的孔洞。操作之前記得洗手! 戳完孔後,切點蔥綠用大蔥油泡一下,均勻放在佛卡夏表面,並稍微壓進麵團裡。最後往表面再灑些鹽巴,同樣是在表面就可以嚐到些許的鹹味。這樣,就可以準備烘焙了! Step

差不多食譜:壽桃 Birthday Bunns

「壽桃」可不是老人家生日的專利,小巧玲瓏的壽桃超級受到小朋友歡迎,直說「好可愛喔!」其實壽桃就是一種造型饅頭/包子,只要掌握了這些方法,要做其他的造型都沒問題。