■■■ morogram-0.7.3a ■■■

morogram-0.7.3a.exe は、師茂樹さん作の Unicode 対応 N グラム分析ツール morogram[1] の拡張＆ Windows 用実行形式版です。

Win32 実行形式に変換する前の morogram-0.7.3a.pl と morogram-sort-0.7.3a.c も同梱してあります。オリジナルの morogram 同様、自由に改変・配布してかまいません。

バグの報告は morogram のメーリングリスト[2] にお願いします。morogram-0.7.3a 固有のものと思われるバグ・要望・質問は僕個人宛てでも ok です[3]。



morogram-0.7.3a.exe - 本体です。インストール不要。これ単体で動きます。

morogram(char-gram).bat - 文字単位で N-gram 分析する例。
morogram(word-gram).bat - 単語単位で N-gram 分析する例。
morogram(--w2).bat - 単語を文字単位で N-gram  分析する例。
※ バッチファイルをマウスでダブルクリックしてください。

source/ - morogram-0.7.3a.exe を作るのに必要なファイル一式

morogram_の使い方.doc - おまけ。文中の "morogram-0.7.1xCJKT.exe" は "morogram-0.7.3a.exe" と読みかえてください。
mgsm.exe - おまけ。使い方は morogram_の使い方.doc を参照のこと。



■■■ 注意 ■■■

基本的にオリジナルの morogram とコンパチですが、--p（delete Punctuation）オプションの挙動が異なります。

オリジナルの morogram が削除する文字：

-!"'(),./:;?[]_{}|!≪≫?‘’??“”??‥…???、。〈〉《》「」
『』【】〔〕???????〟｡｢｣､･！（），－．／：；？［＼］＿｛｜｝

morogram-0.7.3a が削除する文字：

!"#$%&'()*+,-./:;<=>?@[\]^_`{|}~、、。。，．・：；？！゛゜´
｀¨＾￣＿〃―‐／＼～∥｜…‥‘’“”（）〔〕［］｛｝〈〉
《》「「」」『』【】＋－±×÷＝≠＜＞≦≧∞∴♂♀°′″℃￥
＄￠￡％＃＆＊＠§☆★○●◎◇◆□■△▲▽▼※〒→←↑↓〓∈
∋⊆⊇⊂⊃∧∨⇒⇔∀∃⌒∂∇≪≫∽∝∬‰♯♭♪†‡¶◯─│┌
┐┘└├┬┤┴┼━┃┏┓┛┗┣┳┫┻╋┠┯┨┷┿┝┰┥┸╂㍉
㌔㌢㍍㌘㌧㌃㌶㍑㍗㌍㌦㌣㌫㍊㌻㎜㎝㎞㎎㎏㏄㎡㍻〝〟㏍㊤㊥㊦㊧
㊨㈲㈹㍾㍽㍼∮∑∟⊿"|´∪∩∠⊥≡≒√∫№℡㈱￢∵・'



■■■ 拡張 ■■■

● オプション

以前の morogram-0.7.1w.exe はオリジナルの morogram をなるべくいじらないまま実行形式にしていましたが、morogram-0.7.3a はかなり改変してオプションを増やしています：

--f=2,4 といった形式で頻度の上限を指定できます。
--c を指定するとアルファベットの大文字小文字を区別します。
--I=sjis といった形式で入力の文字コードを指定できます。
--O=sjis といった形式で出力の文字コードを指定できます。
--V でバージョンと指定可能な文字コード一覧を表示します。
--w を指定すると単語単位で処理します。
--w1 を指定すると、空白を含めて N-gram 分析します。
--w2 を指定すると、--w1 の結果から空白を含んだ部分を削除します。
--w5 を指定すると、文字種毎に分かち書きしてから単語単位で処理します。
--w6 を指定すると、テキトーに分かち書きしてから単語単位で処理します。



● 単語モードオプション

--w 指定時の「単語」とは、空白または改行で区切られた（分かち書きされた）文字列です。



● 文字コードの指定

--I,--O で指定できる文字コードは、utf8 や UTF-16BE, UCS-2LE, euc-cn, shiftjis, euc-jp, 7bit-jis, euc-kr, big-eten 等です。パソコンに ActivePerl v5.8.3 以上がインストールしてあるなら、morogram-0.7.3a.exe ではなく morogram-0.7.3a.pl を使うことで KOI8 等、他の文字コードも使えるはずです。

--O を指定しない場合、出力の文字コードは入力ファイルと同じになります。


● 文字コードの自動判別

--I=Guess を指定すると文字コードを自動判別します。自動判別できる文字コードは utf8, UTF-16, UTF-32, euc-cn, shiftjis, euc-jp, 7bit-jis, euc-kr, big5-eten です。判別できない場合や候補が複数ある場合は警告なしに utf8 になります。

morogram-0.7.3a.exe をマウスでダブルクリックして実行した場合と、引数なしで起動した場合も、文字コード自動判別モードになります。



● GUI モード

morogram-0.7.3a.exe をマウスでダブルクリックした場合と、入力ファイル名なしで起動した場合は、入力と出力のファイル名を選択するダイアログが開きます。



● 作成環境

gcc version 3.4.5 (mingw-vista special r3)
perl v5.8.9 built for MSWin32-x86-multi-thread Binary build 825
PerlApp 5.3.0 build 530



[1] http://www.ya.sakura.ne.jp/~moro/resources/ngram/morogram.html
[2] http://sourceforge.jp/projects/morogram/
[3] 安田敏博, FZH01112@nifty.ne.jp
