handic-mecab (20230109) | 2023-01-09 22:24 |
mkhandic-mecab (0.2) | 2022-03-14 22:33 |
tools (mecab-k2alpha) | 2019-10-03 21:38 |
主に以下のデータから辞書を構築しました.
その他,追加した項目の詳細についてはHanDicの変更履歴を参照のこと.ネット上のデータについては,誤りなどを見つけ次第修正しています.
品詞体系は概ね国立国語院の目録にしたがっていますが,一部変更したものもあります.詳細はHanDicの品詞体系をご覧ください.
用言活用の記述にあたっては,「語基」の概念を利用しました.
韓国・21世紀世宗計画のRawコーパスから,以下のファイルについて見出しを除く冒頭の100文を抜き出し,解析を行って修正した上で,学習用コーパスとしました.品詞の付与については,それぞのれファイルに対応するTaggedコーパス(形態素解析済みコーパス:ファイル名の冒頭がBTとなる)を参考としました.
以上のデータから学習用コーパスを作成し,パラメータ学習に利用しました.
学習用データについても今後量を増やしていく予定です.
ケーススタディとして,ひらがなをハングルで転写するための変換用辞書を構築しました.具体的な方法については変換用辞書の構築についてをご覧ください.なお,MeCabによるひらがなのハングル転写というツールも公開していますので,ご参照ください.
[PageInfo]
LastUpdate: 2018-04-30 22:21:07, ModifiedBy: pon_okikirmui
[License]
Creative Commons 4.0 Attribution-ShareAlike
[Permissions]
view:all, edit:doc editors, delete/config:doc editors