跳到主要內容

Concise's Anatomy: MMSeg中文分詞


這些天一直在弄Concise中一項相當重要,卻又相當麻煩的功能——中文分詞。

在西方主導的語言學當中,單詞是語言的基本單位。英文、法文、德文等西方語言中的單詞多能以空格作為邊界來區分;但是熟悉中文的使用者都知道,在中文的書寫系統中,並不存在這種邊界。每個中文字、每個漢字都可能是一個單詞,甚至同樣的排列,依據不同的語氣來閱讀,會有不同的意思。從前在國中時,最常被拿來開玩笑的就是徐志摩的那句「數大便是美」,究竟是「數 | 大 | 便是 | 美」?或是「數 | 大便 | 是 | 美」?兩者的意思差了十萬八千里。



這個狀況讓我們在開始使用Concise之前就遇到了困境。那麼,到底怎麼樣算是一個單詞?這涉及中文分詞的技術。截至目前為止,還沒有研究團隊宣稱能完全掌握中文分詞,我只能夠從現有的幾個選擇中選出一個比較能接受的。

之前的Concise,我寫了一個介面連結到Yahoo的斷章取義,以及中央研究院的中文斷詞小組,借用遠端的服務來轉換成Concise的格式。這個方法是可行的,但是有一些限制在。首先,兩個系統都看不到分詞的過程是怎麼進行的,沒有詳細的演算法,就算對結果不滿意,也只能從傳回的資料再去想辦法。此外,對於多數研究要使用的專門語料庫,這兩個系統的API沒辦法載入外部的詞典。

為了處理這些東西,我決定找一個可用的分詞演算法,直接嵌入Concise當中。MMSeg成了我的選擇。如果你用C語言在寫程式,可以直接從演算法下方下載C語言的程式碼。至於Concise使用的Java,則可以從mmseg4j下手。

MMSeg的原理很簡單,先把文章斷成句子,再從句子裡頭去切分單詞。它的運作仰賴四個規則:

規則1:最大匹配。
規則2:最大平均單詞長度。
規則3:單詞長度的最小方差。
規則4:單字單詞的語素自由度的最大和。

詳細的介紹請看MMSeg的官方介紹,或自行下載程式碼看實際的運作過程。

MMSeg4j的另一個特點,就是能載入自訂的詞庫,比起泛用型的中文分詞服務,應當更適合專注於特殊領域的研究使用。原本內嵌於mmseg4j的辭典是搜狗(sogou)從網路環境擷取的,用在簡體中文的語境中好像滿OK的。但是用在繁體的語境,特別是台灣的中文語境當中,分詞好像怪怪的。於是我把裡面的字頻檔char.dic和辭典words.dic換成教育部所公佈的字頻和詞頻表。換過之後,好像好多了。不過還是不夠理想,比方說,名字似乎沒辦法辨識。最大的要素應當是教育部所收錄的常用單詞太少了,之後得增加一些詞庫來使用。

這個功能目前還在測試中,將會在下一個版本中嵌入。

留言

熱門文章

差不多食譜:手工巧克力餅乾 Chocolate Cookies

又是手工餅乾,最近一連出了兩份餅乾食譜,這個「手工巧克力餅乾」已經是第三份了。會不會有更多呢?我可以告訴大家,這是肯定的。 要怪就怪這個陰鬱的冬季雨天,哪裡都不方便去,也懶得出去。餅乾櫃空在那邊已經很久了,雖然有時候會嘴饞,但也沒有迫切去補貨的必要。反正經常開伙,平常該有的材料都會有,自己弄個成分完全透明的零食,也是個不錯的選擇。再說,用烤箱進行烘焙時,房間會變得比較乾燥,也比較溫暖。在夏天是個折磨,但到了冬天,這種感覺還滿不錯的。 話不多說,開始進行這一道「手工巧克力餅乾」的準備工作。

差不多食譜:壽桃 Birthday Bunns

「壽桃」可不是老人家生日的專利,小巧玲瓏的壽桃超級受到小朋友歡迎,直說「好可愛喔!」其實壽桃就是一種造型饅頭/包子,只要掌握了這些方法,要做其他的造型都沒問題。

Excel運用VBA抓取Yahoo Finance APIs股票資料

Yahoo Finance APIs提供了多樣的應用程式接口,讓使用者能夠獲取Yahoo Finance的資料。這篇文章要介紹的,是多數人會用到的股票資料。實作的例子來自於 http://www.gummy-stuff.org/Yahoo-data.htm ,我只是將內容稍微解釋,並且換成台灣股票的例子。