跳到主要內容

Concise Tutorial: 玩文字 Word Lister, Word Clouder & StopWorder


311

Concise 0.2.1a最重要的新特色就是文字資料的視覺化。這篇Tutorial將重點擺在詞頻(Word Frequency)與詞頻的視覺應用,重點在兩個元件上,Word Lister和Word Clouder。前者用來產生詞頻表,後面的比較好玩,可以把文字變成一朵朵的雲。搭配StopWorder的使用,這兩項功能可以顯示出文本的特性。

1.) 產生詞頻表

產生詞頻表的方式非常的簡單,只要幾個動作就行:


WordLister

經過一段時間後(這得看你的語料有多大),詞頻表就完成了。Word Lister中提供簡單的排序功能,可以針對頻率或單詞進行排序。但你可以另存這個詞頻表,將它匯出成Excel檔案,再用Excel中提供的各項功能針對這個表格進行分析。只要在選單上使用「File -> Save Output As…」,或是在表格上按下「右鍵 -> Save Output As...」。


2.) Word Clouder

單純的詞頻表能夠表達的訊息並不明顯,也不好玩。Concise為了更清楚顯示文本的特性,也為了增加趣味性,在這個版本中增加了Word Clouder,將詞頻表轉換成為文字雲(Word Cloud)。

按下工具列右方的「齒輪 -> Word Clouder」,或使用選單上的「View -> Word Clouder」開啟Word Clouder。

Screen Shot 2012-03-22 at 1.55.40 AM

如果你已經做過詞頻表的話,開啟Word Clouder時應該會自動產生。否則,畫面上將顯示大大的NO DATA,提醒你尚未產生任何的詞頻表。只要像操作Word Lister那樣,按下上方寫著「Go」的放大鏡就行了。

Word Lister_NO DATA

Word Clouder產生資料的方式和詞頻表相同,兩方的資料理論上也是同步的。不同的是,Word Clouder增加了右方的文字雲選項,讓你可以藉此產生特定的文字雲型態。

  • Number of Words: 顯示在文字雲上的最大字數
  • Max Font Size: 最大的字體大小
  • Min Font Size: 最小的字體大小
  • Boost: 推進*
  • Boost Factor:  推進係數*
  • Angles: 單詞的旋轉角度
  • X Axis Variation: X軸的延展度**
  • Y Axis Variation: Y軸的延展度**

推進和推進系數兩個數值的搭配用來凸顯字體大小的差異。
** X和Y的比例會影響文字雲的長寬比。

Re-position: 僅重新排列位置,而忽略上述選項的變更。
Re-Layout: 重新計算上述所有的選項,並且重新排列。

Colors: 顏色設定
這個應該不用介紹了吧!!!!!

在一篇Concise Preview當中,曾經說單詞的頻率和顏色沒有關聯,在這個版本已經修正囉!不同的頻率會依據序列摘取顏色設定中的色彩。頻率較高的會使用較上方的顏色,頻率低的就會用下方的。

Fonts: 字體設定
這個也不用介紹了吧!和顏色設定相同,字體也會依據頻率的排序來進行對照。


多玩個幾次,就可以掌握畫面到底會怎麼變化了。如果你覺得看起來還不錯,可以將文字雲存成圖片,只要在選單上使用「File -> Save Output As…」,或是在表格上按下「右鍵 -> Save Output As...」就行。


3.) StopWorder

StopWorder的作用在於顯示停用詞(Stop Words)。在Concise的環境中,只要StopWorder中含有停用詞,過濾停用詞的功能就會自動開啟。

在中文裡面,「的」「是」「一」「在」「有」「個」「我」「不」「了」「他」「也」「就」「人」「都」「說」「而」等等,都是經常出現的詞(可參考中研院平衡語料庫的詞頻統計。這些詞幾乎出現在所有的文本當中,而且出現的頻率非常地高,使得文本沒辦法有效地凸顯其特性。這個時候,可以使用StopWorder將這些詞設成停用的狀態。

StopWorder可以從兩個地方開啓,一個是工具列右上角的「齒輪 -> StopWorder」,另一個方法則是從選單「View -> Tools -> StopWorder」。之後,StopWorder應該會在畫面右方開啟。可以運用上方的Add Stop文字欄可以輸入停用詞,或是按下右方的小齒輪,從文字檔載入給定的停用詞(一行一個詞)。

StopWorder and Word Clouder

但是要怎麼決定停用詞,這是個相當複雜的情況,常常依據你的需求而改變。有的時候,研究所要看的就是出現頻率極高的那幾個字,有時候又想看去掉這些字之後的狀況。因為這個原因,Concise沒有辦法提供固定的停用詞單,而讓使用者自行決定。不過,我們倒是有個好玩又有效的方法來決定停用詞。

日本三一一大地震剛滿一週年,可以拿去年三月份收集到的網路新聞資料來檢查。首先,就如同上面幾個步驟,載入去年三月份的語料,接著產生文字雲。

這個時候已經可以看到一些明顯該停用的詞,像是「的」、「是」、「在」等等。這時候可以加上停用詞,再按工具列上的放大鏡「Go」,再跑一次文字雲。來回個幾次之後,應該就能得到一個還不錯的停用詞單。

StopWorder (enabled) and Word Clouder

在這個例子裡,我總共用了59個停用詞,與日本三一一地震相關的高頻率詞彙就出現了(請比較這張圖和上面那張)。可以看到「日本」、「台灣」、「地震」、「海嘯」、「輻射」、「核電廠」等等都冒了出來。這個事件也正是去年三月最熱門的新聞。


我想,這個部分很有趣,你可以把任何你想得到的東西丟進去,看看跑出來會是什麼。有人用來顯示他的論文究竟寫了什麼,有人用來表現他的想法,有的人用來...。我不知道你打算用在哪裡,但是歡迎你和大家分享。

現在您可以前往Concise的官方網站,下載最新版的Concise

留言

熱門文章

差不多食譜:手工巧克力餅乾 Chocolate Cookies

又是手工餅乾,最近一連出了兩份餅乾食譜,這個「手工巧克力餅乾」已經是第三份了。會不會有更多呢?我可以告訴大家,這是肯定的。 要怪就怪這個陰鬱的冬季雨天,哪裡都不方便去,也懶得出去。餅乾櫃空在那邊已經很久了,雖然有時候會嘴饞,但也沒有迫切去補貨的必要。反正經常開伙,平常該有的材料都會有,自己弄個成分完全透明的零食,也是個不錯的選擇。再說,用烤箱進行烘焙時,房間會變得比較乾燥,也比較溫暖。在夏天是個折磨,但到了冬天,這種感覺還滿不錯的。 話不多說,開始進行這一道「手工巧克力餅乾」的準備工作。

差不多食譜:壽桃 Birthday Bunns

「壽桃」可不是老人家生日的專利,小巧玲瓏的壽桃超級受到小朋友歡迎,直說「好可愛喔!」其實壽桃就是一種造型饅頭/包子,只要掌握了這些方法,要做其他的造型都沒問題。

【豐原大蔥】免揉大蔥佛卡夏 No-knead Leek Focaccia - 差不多食譜

「豐原大蔥」的第二道食譜,就做 大蔥馬鈴薯濃湯 那篇提到的「大蔥佛卡夏」,而且用的還是懶人的免揉方法。不光是麵包,這份食譜還有一個衍生的副產品「大蔥油」,靈感來源就是蔥油拌麵。接著就來看看我是怎麼做的吧! 「大蔥佛卡夏」差不多需要這些材料:(20cm鑄鐵鍋) 豐原大蔥 ...... 1根 橄欖油 …… 適量(150ml左右) 高筋麵粉 …… 200g 鹽 …… 2g 酵母粉 …… 2-3g 水 …… 180-200g 「大蔥佛卡夏」差不多是這麼做的: Step 1. 製作「大蔥油」 說來你可能不相信,製作「大蔥佛卡夏」的「大蔥油」,靈感竟是來自於蔥油拌麵。但是大蔥油製作時需要人在旁邊顧著,而且炸過的大蔥也會拌進麵團裡面,正式製作佛卡夏前就先把這個大蔥油做好。 用小蔥製作蔥油的時候,只有切段丟進油裡去炸。可是我打算把炸過的大蔥一起揉到麵包裡,大蔥纖維比較不好咬斷,就先用刀子給它切碎。要注意的是,這裡我只用蔥白,以及稍微有點厚度的蔥綠,也就是蔥白和蔥綠交界那邊。 接下來,把切碎的大蔥放入鍋中,並倒入橄欖油,用中小火慢慢去炸大蔥。我不想要麵包裡黑黑的,所以炸到大蔥變軟,香味散出,顏色稍微黃一點的時候就可以關火,並將炸過的大蔥撈出放涼。 剩下的油就是大蔥油了,留下來炒菜、拌麵都很不錯。 Step 2. 製作佛卡夏麵團 拿個大碗,倒入高筋麵粉、鹽巴、酵母,再加上水攪拌成團。不用揉,只要成團就可以。 Step 3. 拌入大蔥發酵 往麵團中放入炸過而且放涼的大蔥,用湯匙或筷子拌進麵團。如果你的大蔥瀝的比較乾,再多補一兩匙大蔥油進去。當然,我這種差不多的作法,盛大蔥的碗底就差不多有一兩匙大蔥油了,整碗直接倒進去就好。 拌好後,找個蓋子蓋起來,室溫放一兩個鐘頭進行基礎發酵。也可以直接放進冰箱發酵,隔天再拿出來處理,就像其他的免揉麵包一樣。 Step 4. 移到烤盤 發酵完成,就可以把麵團轉移到烤盤上。我懶得洗鍋子,直接拿炸大蔥油的那個鑄鐵鍋當作烤盤來用。先在鑄鐵鍋(烤盤)底部抹些油,再灑些鹽巴,這樣麵包烤好之後表面就可以咬到一點鹹味。 接著就把麵團直接搬到烤盤,淋點大蔥油,開始用手指戳出佛卡夏特有的孔洞。操作之前記得洗手! 戳完孔後,切點蔥綠用大蔥油泡一下,均勻放在佛卡夏表面,並稍微壓進麵團裡。最後往表面再灑些鹽巴,同樣是在表面就可以嚐到些許的鹹味。這樣,就可以準備烘焙了! Step