[Seijiseikana-list] 『正字正かなプロジェクト』の當面の豫定など

Back to archive index

Hiroshi Moriyama hiros****@kvd*****
2009年 3月 9日 (月) 15:56:54 JST


森山ひろしです。

プロジェクトの直近(今年)のおほざっぱな豫定やアイディアを茲に公開して置き
ます。

== 單漢字辭書

まづ單漢字辭書を、完全に「自由」であることが疑ひのないやうな形に作ります。
これには、まづ空のファイルを公開レポジトリに置いてゼロから作り始め、その
作業の過程をログに殘し公開することで、著作權だの何だののしがらみや疑惑が
全く無い完全に自由な状態の辭書が、出來ると考へてゐます。單漢字辭書に限ら
ず、他の辭書も同樣です。その爲に公開レポジトリが使へるSourceForge.JPを選
擇しました。

辭書のフォーマットは未だ特に決めてゐません。作り乍ら變更したりして色々實
驗することになるでせう。とりあへずはTSV(Tab Separated Values)になるはずで
す。

== 「同音の漢字による書きかえ」其の他で破壞された單語を復元するための辭書

既に

http://kanji-database.cvs.sourceforge.net/viewvc/kanji-database/kanji-database/variants/replaceables-douon.txt

などがありますが、之では不足ではないかと思はれます(因に上記はGPL'ed)。
「同音の漢字による書きかえ」やそれ類する「書き換へ」の影響範圍は厖大で、
しかも *文脈にも沿って正確に* 復元しようとしたとき、其れ等の元の語に關す
る知識が壓倒的に不足してゐます。たとへば「知識」と「智識」は單純に全部
「智識」には出來ない筈です(よね?)

そのへんも含めて此のプロジェクトで「書き換へ語」に關するデータ・知識を蓄
積できればと思ってゐます。

# 「書き換へ語」について參考になる書籍等を御存じの方は是非御報せください。

== 校閲者を募集する

單漢字辭書は他のすべての辭書の基礎となるものです。ですので誤字や字音の間
違ひなどのバグは徹底的に潰して置きたい。そのためには私個人の手と目だけで
は到底無理です。漢字の知識は乏しいし、6000を超える漢字のリストをいぢくっ
てゐるとどうしても操作ミスなどで間違ひが紛れ込みます。

開發中の段階から一人でも多くの人に見てもらったり、實際に使ったりして頂く
ことで、バグを一つでも多く發見・修正したいと思ひます。バグ報告には當面は
此のメーリングリストを活用します。ひとりでも多くの方の參加を御待ちしてゐ
ます。

# とはいへROMでも大歡迎ですよ :-)

なほ當プロジェクトは、當面こそ私個人の作業が主となりますが、勿論それに留
めて置く積りは全くありません。遲くとも半年内には「開發メンバ」を増やして、
開發を加速させたいと考へてゐます。

== 正字⇔略字變換を行ふEmacs Lispコマンド群

之は『略字⇔正字辭書』が或程度まで作れたら直ぐに、プロトタイプを書き上げ
て公開します。かなづかひの變換對應はelispでは少々難しいので未定ですが、將
來的にはもちろんやる積りです。

== 正字⇔略字變換を行ふJavaScriptライブラリ

之も辭書が作れたら同上。

== 正かなづかひに對應Anthy附屬語辭書(seikana-depgraph)

Anthyの附屬語辭書(正確には附屬語グラフ)はテキストで書かれてをり、比較的簡
單に修正が可能です。これをいぢってAnthyを正かなづかひに對應させます。

パッチを簡單に適用して試すことが出來るやうに、Debianのdebパッケージを修正
する形でやる豫定です。さうなると他の環境では試しづらいですが、ソースも當
然公開されるので、やらうと思へばdepgraphだけ引っぱって來て試せるはずです
(多分)。ですので、とりあへずは、私の使用環境で一番簡單に使へるやうにさせ
て頂きます。

もちろん、將來的にはMS Windowsを含めた各環境で簡單に扱へる形に持って行く
積りです。

== 完全に「自由」に使へる正字正かなテキストデータの蓄積

此のメーリングリストを作ったときに思ひ附いたのですが、茲に投稿されたテキ
ストをその投稿者の許諾を得、正字正かなの「生」きた現代の電子テキストデー
タとして蓄積、利用するのはどうでせうか。

『青空文庫』のデータを利用することも考へてゐますが、あれは著作権切れのテ
キストが對象ですからいささか「古」く、現代文の日本語入力にはそぐはない内
容が少くないです。もちろんそれでも役には立つのでが、どうせなら「現代日本
語正字正かなの自由なコーパス」を作る――といふのも一興でせう。

== 既存の「自由」な状態の文書を正字正かなづかひに「翻譯」して公開する

これなんかは比較的簡單に出來ますね。

「コレを『翻譯』して!」といふ物があればどうぞ御報せください。

== 日本語情報處理關聯リンク集

題そのままです。實ははてなブックマーク(<http://b.hatena.ne.jp/mhrs/>)は其
の爲の草稿なのでありました。やはり静的なファイルにきちんとした形で纏めら
れゐたはうがいいですから。

==

とりあへずはこんなところでせうか。なほ、レポジトリやウェブページなどは遲
くとも2009-04-01をリミットとして公開を目指してゐますが、それよりも成る可
く早く公開出來るやう努めます。よろしく御願ひします。

以上です。御意見や質問などを御待ちしてをります。


-- 
森山ひろし
Hiroshi Moriyama <muras****@users*****>
開發者プロフィル: <http://sourceforge.jp/users/murasakino>
マイクロWeb日記: <http://d.hatena.ne.jp/mhrs/>




seijiseikana-list メーリングリストの案内
Back to archive index