任务单 #39727

実行結果の文字化けについて

开放日期: 2019-11-06 08:53 最后更新: 2019-11-13 08:43

报告人:
属主:
状态:
开启 [Owner assigned]
组件:
(无)
里程碑:
(无)
优先:
5 - Medium
严重性:
5 - Medium
处理结果:
文件:

Details

素晴らしいソフトウェアをご提供頂きましてありがとうございます。

現在、Nhocr を利用させて頂いておりますが、 多くの画像データに対してはそれっぽい結果が出てくるのですが まれに、日本語の文字が全く出てこずに 記号のみが出力結果として出てくる事があります。

部分的に記号が出てくるのは仕方がないと思っておりますが 数百文字ある日本語の文書をスキャンした結果なので どこか使用方法がまずかったのかなと思っております。

全体的に日本語として全く認識されない場合に 何か対処方法などの様なものはございますでしょうか?

お手数をおかけして恐縮ですが ご回答頂けましたら幸いです。

よろしくお願い申し上げます。

任务单历史 (3/3 Histories)

2019-11-06 08:53 Updated by: satstnka
  • New Ticket "実行結果の文字化けについて" created
2019-11-06 10:36 Updated by: hgot
评论

入力画像を見てみないと原因が判りませんが、罫線やルビなどの装飾、周囲にノイズとなる枠などが含まれていないでしょうか。NHocr単体ではシンプルな文字行しか扱えません。他のツールで二値化した画像でうまく動くなら、二値化処理に失敗するような背景ノイズがあるかもしれません。

2019-11-13 08:43 Updated by: None
评论

hgot への返信

入力画像を見てみないと原因が判りませんが、罫線やルビなどの装飾、周囲にノイズとなる枠などが含まれていないでしょうか。NHocr単体ではシンプルな文字行しか扱えません。他のツールで二値化した画像でうまく動くなら、二値化処理に失敗するような背景ノイズがあるかもしれません。

ご回答ありがとうございます。 実行前に mogrify -despeckle などでノイズ除去をあらかじめ行なう様にすると 状況が改善しました。

Attachment File List

No attachments

编辑

You are not logged in. I you are not logged in, your comment will be treated as an anonymous post. » 登录名