2013.3jp にむけたテキスト解析辞書の更新
2013.2jp ではちゃんと読めていた
山陽本線(さんようほんせん)
山口県(やまぐちけん)
が miscdep 177 で「やまひほんせん」「やまこーせん」になっているようなので、調査中です。
上記コメントの件は辞書の問題ではなく、読み上げ辞書をテストしたときに「山」「やま」という登録をしてしまったためでした。
テストケースはいちおう miscdep に追加しておきました。
固有名詞に関する辞書のテストケース整備の記録:
https://bitbucket.org/nvdajp/nvdajpmiscdep/commits/af352ccf5fcf05f3ae2dfb994b7aabcbf72ba919
このほか、以下のご指摘をいただきました。
「有り難うございました」の点字表示が「アリガターゴザイマシタ」になっています。 点字表記のルールでは「アリガトー□ゴザイマシタ」です。
平仮名文字列の点訳についてご指摘をいただいているので、 'とおいむこう' 'あいうえお' 'かきくけこ' のテキスト解析結果を調べました。 音便や分かち書きの処理などは含んでいません。
簡単に説明すると、テキスト解析に失敗しているという状況です。
固有名詞であれば過去に「きゃりーぱみゅぱみゅ」などを辞書登録しましたが、 「むこう」「あいうえお」などを辞書登録するのが適切とは限らないので、難しいところです。
Mecab_print size: 3 0 とおい,形容詞,自立,*,*,形容詞・アウオ段,基本形,とおい,トオイ,トーイ,0/3,C1 1 むこ,動詞,自立,*,*,五段・カ行イ音便,未然ウ接続,むく,ムコ,ムコ,0/2,C1 2 う,助動詞,*,*,*,不変化型,基本形,う,ウ,ウ,0/1,動詞%F4@0/特殊助動詞%F2@0 input: とおいむこう braille expected: トオイ/ムコー braille result: トーイ/ムコ/ウ Mecab_print size: 4 0 あ,フィラー,*,*,*,*,*,あ,ア,ア,1/1,C3 1 いう,形容詞,自立,*,*,形容詞・アウオ段,連用ゴザイ接続,いい,イウ,イー,1/2,C3 2 え,フィラー,*,*,*,*,*,え,エ,エ,1/1,C3 3 お,感動詞,*,*,*,*,*,お,オ,オ,1/1,C3 input: あいうえお reading expected: アイウエオ reading result: アイーエオ Mecab_print size: 4 0 あ,フィラー,*,*,*,*,*,あ,ア,ア,1/1,C3 1 いう,形容詞,自立,*,*,形容詞・アウオ段,連用ゴザイ接続,いい,イウ,イー,1/2,C3 2 え,フィラー,*,*,*,*,*,え,エ,エ,1/1,C3 3 お,感動詞,*,*,*,*,*,お,オ,オ,1/1,C3 input: あいうえお braille expected: アイウエオ braille result: ア/イー/エ/オ Mecab_print size: 3 0 かき,動詞,自立,*,*,五段・カ行イ音便,連用形,かく,カキ,カキ,1/2,C1 1 くけ,動詞,自立,*,*,一段,連用形,くける,クケ,クケ,0/2,C2 2 こ,動詞,非自立,*,*,カ変・クル,未然形,くる,コ,コ,1/1,C1 input: かきくけこ braille expected: カキクケコ braille result: カキ/クケ/コ
miscdep への下記のコミットについての記録です:
[master 78ca4e5] updated mecab dictionary. nvdajp ticket 32140. 9 files changed, 70 insertions(+), 3 deletions(-)
以下のテストケースを jptools/mecabHarness.py に追加して、関連する作業を行いました:
{'text':'あいうえお', 'braille':'アイウエオ'}, {'text':'かきくけこ', 'braille':'カキクケコ'}, {'text':'untitled', 'speech':'アンタイトルド'}, {'text':'reopen', 'speech':'リオウプン'}, {'text':'chain', 'speech':'チェイン'}, {'text':'auto', 'speech':'オート'}, {'text':'minute', 'speech':'ミニットゥ'}, {'text':'flanger', 'speech':'フランジャー'}, {'text':'stereo', 'speech':'ステリオウ'}, {'text':'rate', 'speech':'レイトゥ'}, {'text':'resample', 'speech':'リサンプル'}, {'text':'exit', 'speech':'エグジットゥ'}, {'text':'ありがとう', 'braille':'アリガトー'}, {'text':'有り難う', 'braille':'アリガトー'}, {'text':'有り難うございました', 'braille':'アリガトー/ゴザイ/マシ/タ'},
英単語は Goldwave のメニュー項目の一部です。
miscdep master 4ac276d へのコミットの記録:
以下のテストケースを追加して、関連する作業を行いました。 (メール通知で文字化けするかもしれないので点字パターンは省略)
# jptools/mecabHarness.py {'text':'展開', 'braille':'テンカイ'}, {'text':'テンカイ', 'braille':'テンカイ'}, # jptools/harness.py { 'comment': '点訳のてびき第3版 第2章 その1 1 5', 'text': 'おおきい', 'input': 'オオキイ', }, { 'comment': '点訳のてびき第3版 第2章 その1 1 5 「大きい」の派生語', 'text': '大まか', 'input': 'オオマカ', }, { 'comment': '点訳のてびき第3版 第2章 その1 1 5 「大きい」の派生語', 'text': 'おおまか', 'input': 'オオマカ', }, {
miscdep master 2cc8908:
# jptools/mecabHarness.py + {'text':'version', 'speech':'バージョン'}, + {'text':'epub', 'speech':'イーパブ'}, + {'text':'libre', 'speech':'リブレ'}, + {'text':'picture', 'speech':'ピクテュァ'}, + {'text':'gpu', 'speech':'ジーピーユー'}, + {'text':'drivers', 'speech':'ドゥライバーズ'}, + {'text':'unicode', 'speech':'ユニコウドゥ'}, + {'text':'base', 'speech':'ベイス'}, + {'text':'are', 'speech':'アー'}, + {'text':'visum', 'speech':'ビズム'},
master a685487:
# jptools/mecabHarness.py + {'text':'田中 梅木 鈴木', 'speech':'タナカ ウメキ スズキ'}, + {'text':'付点', 'speech':'フテン'},
2013.3jp リリース候補1 (131207) における miscdep のアーカイブは以下の通りです:
https://dl.dropboxusercontent.com/u/62564469/nvdajp-miscdep-187-e3f37db.7z
今後の改良は 2014.1jp をターゲットに行います。
2013.3jp にむけた、点訳エンジンおよびJTalk音声エンジンのための、テキスト解析辞書の変更についてまとめます。
miscdep 177 での変更
https://dl.dropboxusercontent.com/u/62564469/nvdajp-miscdep-177-765e8fd.7z
2013.2jp のための作業に引き続き、英単語を不適切に読み上げる現象を減らす作業を行っています。
テストケースとして下記(主に NVDA そのものの英語版メッセージから取った用例)が追加され、これらは解析に失敗しないようになっています。