Hiroshi Moriyama
hiros****@kvd*****
2009年 3月 9日 (月) 15:56:54 JST
森山ひろしです。 プロジェクトの直近(今年)のおほざっぱな豫定やアイディアを茲に公開して置き ます。 == 單漢字辭書 まづ單漢字辭書を、完全に「自由」であることが疑ひのないやうな形に作ります。 これには、まづ空のファイルを公開レポジトリに置いてゼロから作り始め、その 作業の過程をログに殘し公開することで、著作權だの何だののしがらみや疑惑が 全く無い完全に自由な状態の辭書が、出來ると考へてゐます。單漢字辭書に限ら ず、他の辭書も同樣です。その爲に公開レポジトリが使へるSourceForge.JPを選 擇しました。 辭書のフォーマットは未だ特に決めてゐません。作り乍ら變更したりして色々實 驗することになるでせう。とりあへずはTSV(Tab Separated Values)になるはずで す。 == 「同音の漢字による書きかえ」其の他で破壞された單語を復元するための辭書 既に http://kanji-database.cvs.sourceforge.net/viewvc/kanji-database/kanji-database/variants/replaceables-douon.txt などがありますが、之では不足ではないかと思はれます(因に上記はGPL'ed)。 「同音の漢字による書きかえ」やそれ類する「書き換へ」の影響範圍は厖大で、 しかも *文脈にも沿って正確に* 復元しようとしたとき、其れ等の元の語に關す る知識が壓倒的に不足してゐます。たとへば「知識」と「智識」は單純に全部 「智識」には出來ない筈です(よね?) そのへんも含めて此のプロジェクトで「書き換へ語」に關するデータ・知識を蓄 積できればと思ってゐます。 # 「書き換へ語」について參考になる書籍等を御存じの方は是非御報せください。 == 校閲者を募集する 單漢字辭書は他のすべての辭書の基礎となるものです。ですので誤字や字音の間 違ひなどのバグは徹底的に潰して置きたい。そのためには私個人の手と目だけで は到底無理です。漢字の知識は乏しいし、6000を超える漢字のリストをいぢくっ てゐるとどうしても操作ミスなどで間違ひが紛れ込みます。 開發中の段階から一人でも多くの人に見てもらったり、實際に使ったりして頂く ことで、バグを一つでも多く發見・修正したいと思ひます。バグ報告には當面は 此のメーリングリストを活用します。ひとりでも多くの方の參加を御待ちしてゐ ます。 # とはいへROMでも大歡迎ですよ :-) なほ當プロジェクトは、當面こそ私個人の作業が主となりますが、勿論それに留 めて置く積りは全くありません。遲くとも半年内には「開發メンバ」を増やして、 開發を加速させたいと考へてゐます。 == 正字⇔略字變換を行ふEmacs Lispコマンド群 之は『略字⇔正字辭書』が或程度まで作れたら直ぐに、プロトタイプを書き上げ て公開します。かなづかひの變換對應はelispでは少々難しいので未定ですが、將 來的にはもちろんやる積りです。 == 正字⇔略字變換を行ふJavaScriptライブラリ 之も辭書が作れたら同上。 == 正かなづかひに對應Anthy附屬語辭書(seikana-depgraph) Anthyの附屬語辭書(正確には附屬語グラフ)はテキストで書かれてをり、比較的簡 單に修正が可能です。これをいぢってAnthyを正かなづかひに對應させます。 パッチを簡單に適用して試すことが出來るやうに、Debianのdebパッケージを修正 する形でやる豫定です。さうなると他の環境では試しづらいですが、ソースも當 然公開されるので、やらうと思へばdepgraphだけ引っぱって來て試せるはずです (多分)。ですので、とりあへずは、私の使用環境で一番簡單に使へるやうにさせ て頂きます。 もちろん、將來的にはMS Windowsを含めた各環境で簡單に扱へる形に持って行く 積りです。 == 完全に「自由」に使へる正字正かなテキストデータの蓄積 此のメーリングリストを作ったときに思ひ附いたのですが、茲に投稿されたテキ ストをその投稿者の許諾を得、正字正かなの「生」きた現代の電子テキストデー タとして蓄積、利用するのはどうでせうか。 『青空文庫』のデータを利用することも考へてゐますが、あれは著作権切れのテ キストが對象ですからいささか「古」く、現代文の日本語入力にはそぐはない内 容が少くないです。もちろんそれでも役には立つのでが、どうせなら「現代日本 語正字正かなの自由なコーパス」を作る――といふのも一興でせう。 == 既存の「自由」な状態の文書を正字正かなづかひに「翻譯」して公開する これなんかは比較的簡單に出來ますね。 「コレを『翻譯』して!」といふ物があればどうぞ御報せください。 == 日本語情報處理關聯リンク集 題そのままです。實ははてなブックマーク(<http://b.hatena.ne.jp/mhrs/>)は其 の爲の草稿なのでありました。やはり静的なファイルにきちんとした形で纏めら れゐたはうがいいですから。 == とりあへずはこんなところでせうか。なほ、レポジトリやウェブページなどは遲 くとも2009-04-01をリミットとして公開を目指してゐますが、それよりも成る可 く早く公開出來るやう努めます。よろしく御願ひします。 以上です。御意見や質問などを御待ちしてをります。 -- 森山ひろし Hiroshi Moriyama <muras****@users*****> 開發者プロフィル: <http://sourceforge.jp/users/murasakino> マイクロWeb日記: <http://d.hatena.ne.jp/mhrs/>