ATOK用辭書を字音假名遣對應に變換する試作プログラム

ファイル

内容物は以下の通り。

test4c.pl
同梱のtan.txtjiontan.txtsei-kunyomilist.txtから、字音假名遣と表音式假名遣の對照表などを作るperlスクリプト。
test5c.pl
test4c.plで作成したファイルを使つて、ATOKから出力した單語ファイルを、字音假名遣對應に變換するperlスクリプト。
tan.txt
ATOKから「単漢字」のみを出力したファイルをutf8、改行コードLFに變換したもの。
jiontan.txt
字音假名遣で區別のある語のみを收録したもの。ATOK用字音假名遣單漢字辭書にある、jiontan-strict.txtと同等のものですが、これもエンコードがutf8となつてゐます。
sei-kunyomilist.txt
訓讀みの正かなと略かなの對照表。かなり不完全です。

試作環境

Windows XP + Active Perl 5.8なんとか + ATOK17です。

手順

變換元のATOK用辭書の準備

  1. 【書庫】資料室の正字正假名辭書をインストール
  2. ATOK17標準辭書をjishox0208to0213でJIS X 0213對應に變換
  3. 正字正假名辭書も同じく變換
  4. それらをATOKの「プロパティ」の「辞書・学習」のところで同じ辞書セットに登録
  5. そして、「辞書ユーティリティ」の「一覧出力」、「単語出力」でその辞書セットを選擇し、出力ファイルを適當に入力、「Unicodeで出力する」オプションをオンにし、種類は「登録単語」と「システム単語」(と「自動登録単語」も入れてもいいのかな)にチェック、變換したい品詞の設定をして(私の場合は動詞以外全部チェックした)、「実行」ボタンを押す
  6. 以下、説明のために、ここで出力したファイルを、假に「atok-out.txt」としておきます。

    變換データベースの準備

    test4c.plを使用して、字音假名遣と表音式假名遣の對照表を作成します。

    1. まづ、コマンドプロンプトからtest4c.plを實行します。
    2. さうすると、outtest4.txtといふファイルと、jionkanjilisttest.txtといふファイルができます。
    3. outtest4.txtは對照表で、jionkanjilisttest.txtは字音假名遣と表音式の假名遣で表記に違ひのある漢字のリストです。

    變換

    あとは、先程のatok-out.txtを同じフォルダに置いて、コマンドプロンプトからtest5c.plを實行します。かなり時間がかかりますが、終るまで暫く待ちます。

    outtest5.txtが登録用の單語ファイルです。outtest5del.txtは變換が行はれた元のファイルで、辞書ユーティリティから一括削除するときに使ふものです。例へば、「關係」といふ語は「かんけい」で登録されてゐますが、「くゎんけい」と變換されたのがouttest5.txtに入り、元の「かんけい」がouttest5del.txtに入ります。

    wakarantin.txtといふファイルも出力されますが、これは字音假名遣の漢字が單語に含まれてゐるけれど、他の漢字の讀みが合はなくて出力できなかつた單語です。訓讀みと音讀みが入り混じつた語で訓讀みだけ正かなになつてゐる語や、特殊な讀みを含む語などが含まれるやうです。前者については、何とかすれば何とかなりさうな氣もします。

    outtest5.lzh
    outtest5.txtとouttest5del.txtとwakarantin.txtを壓縮したものです。私の場合といふことで、一往置いておきます。
    outtest5-sjis.txt
    outtest5.txtのシフトJIS版です。前に何か掲示板で質問があつたやうで、若干需要がありさうなので、ここに置いておきます。

    登録

    outtest5.txtは一括登録で、outtest5del.txtは必要に應じて一括削除で使つて下さい。

    をはりに

    これで作成されるのは、無駄なものが含まれてゐたり、變換出來ない單語が多かつたりと、完璧とはほど遠いものですが、ないよりはだいぶましでせう。

    有志の方には、これを改造したり、參考にしたりして、よりよいものを作つていただきたいと思ひます。


    [PR]޺Ҏ:ܲfނς