修订版 | 74d99b33b0c2fbc87284c6253a31ffae80e42a63 (tree) |
---|---|
时间 | 2020-09-25 00:17:20 |
作者 | Haruka Masaki <yek@reas...> |
Commiter | Haruka Masaki |
fix readme to refer upstream.
@@ -1,113 +1,39 @@ | ||
1 | -# Mozc UT Dictionary | |
2 | - | |
3 | -20200924 | |
4 | - | |
5 | -## Overview | |
6 | - | |
7 | -Mozc UT Dictionary is an additional dictionary for Mozc. It will add over 1,000,000 entries to Mozc. | |
8 | -I used them for this dictionary. | |
9 | - | |
10 | -File | License | Note | |
11 | --- | -- | -- | |
12 | -alt-cannadic | [GPL-2.0](https://ja.osdn.net/projects/alt-cannadic/wiki/FrontPage) | Disabled. | |
13 | -edict | [CC-BY-SA 3.0](http://www.edrdg.org/jmdict/edict.html) | Disabled. | |
14 | -jawiki-articles | [CC-BY-SA 3.0](https://ja.wikipedia.org/wiki/Wikipedia:ウィキペディアを二次利用する) | A dictionary generated from Japanese Wikipedia. | |
15 | -jinmei-ut | [Apache-2.0](http://linuxplayers.g1.xrea.com/mozc-ut.html) | Japanese names. | |
16 | -neologd | [Apache-2.0](https://github.com/neologd/mecab-ipadic-neologd) | | |
17 | -nicoime | [unknown](http://tkido.com/blog/1019.html) | Disabled. | |
18 | -skk | [GPL-2.0-or-later](http://openlab.ring.gr.jp/skk/wiki/wiki.cgi?page=SKK%BC%AD%BD%F1) | Disabled. | |
19 | -zipcode | [public domain](http://www.post.japanpost.jp/zipcode/dl/readme.html) | | |
20 | -jawiki-all-titles | [CC-BY-SA 3.0](https://ja.wikipedia.org/wiki/Wikipedia:ウィキペディアを二次利用する) | For cost adjustments. | |
21 | -mozc | [BSD-3-Clause](https://github.com/google/mozc) | For checking duplicates. | |
22 | -*.rb, *.sh | [Apache-2.0](http://linuxplayers.g1.xrea.com/mozc-ut.html) | Codes to generate dictionaries. | |
23 | - | |
24 | -## Download | |
1 | +# Mozc UT Dictionary for distribute in AUR | |
25 | 2 | |
26 | -https://osdn.net/users/utuhiro/pf/utuhiro/files/ | |
27 | - | |
28 | -## Install | |
29 | - | |
30 | -Download original Mozc. | |
31 | - | |
32 | -``` | |
33 | -wget -nc ftp.jp.debian.org/debian/pool/main/m/mozc/mozc_2.23.2815.102+dfsg.orig.tar.xz | |
34 | -tar xf mozc_2.23.2815.102+dfsg.orig.tar.xz | |
35 | -``` | |
3 | +## Upstream | |
36 | 4 | |
37 | -Add Mozc UT Dictionary to Mozc. | |
38 | - | |
39 | -``` | |
40 | -cat mozcdic-ut-20200924.1/mozcdic-*-20200924.1.txt >> mozc-2.23.2815.102+dfsg/src/data/dictionary_oss/dictionary00.txt | |
41 | -``` | |
5 | +- [utuhiro's mozcdic-ut](http://linuxplayers.g1.xrea.com/mozc-ut.html) | |
6 | +- [file list](https://osdn.net/users/utuhiro/pf/utuhiro/files/) | |
42 | 7 | |
43 | -Build Mozc as usual. | |
44 | - | |
45 | -## Install (Arch Linux) | |
8 | +## AUR | |
46 | 9 | |
47 | -Get "mozcdic-ut-20200924.1.PKGBUILD" from [OSDN](https://osdn.net/users/utuhiro/pf/utuhiro/files/) and run it. | |
10 | +[mozc-ut-unified](https://aur.archlinux.org/packages/mozc-ut-unified/) | |
48 | 11 | |
49 | -``` | |
50 | -makepkg -i -p mozcdic-ut-20200924.1.PKGBUILD | |
12 | +## How to install | |
13 | + | |
14 | +Use trizen. | |
15 | + | |
16 | +```bash | |
17 | +trizen -S mozc-ut-unified | |
51 | 18 | ``` |
52 | 19 | |
53 | -## Option: Rebuild Mozc UT Dictionary | |
54 | - | |
55 | -Mozc UT Dictionary is so big. You can disable some dictionaries to reduce the size and simplify the license. | |
20 | +yay. | |
56 | 21 | |
57 | -``` | |
58 | -tar xf mozcdic-ut-20200924.1.tar.bz2 | |
59 | -mv mozcdic-ut-20200924.1 mozcdic-ut-dev | |
60 | -cd mozcdic-ut-dev/src/ | |
61 | -mousepad make-dictionaries.sh | |
22 | +```bash | |
23 | +yay -S mozc-ut-unified | |
62 | 24 | ``` |
63 | 25 | |
64 | -Comment out unnecessary dictionaries. | |
65 | -If you want to use only neologd and zipcode dictionaries, edit the lines like this. | |
26 | +pamac. | |
66 | 27 | |
67 | -``` | |
68 | -#altcannadic="true" | |
69 | -#edict="true" | |
70 | -#ekimei="true" | |
71 | -#jawikiarticles="true" | |
72 | -#jinmeiut="true" | |
73 | -neologd="true" | |
74 | -#nicoime="true" | |
75 | -#skk="true" | |
28 | +```bash | |
29 | +pamac install mozc-ut-unified | |
76 | 30 | ``` |
77 | 31 | |
78 | -Run `make-dictionaries.sh`. It generates new "mozcdic-ut-20200924.1". | |
79 | -NOTE: If you enable "jawikiarticles", `make-dictionaries.sh` downloads "jawiki-latest-pages-articles.xml.bz2" (over 3.0GB). | |
32 | +or manually | |
80 | 33 | |
81 | 34 | ``` |
82 | -cd ../src/ | |
83 | -gem install bzip2-ffi | |
84 | -sh make-dictionaries.sh | |
85 | -ls ../../mozcdic-ut-20200924.1/ | |
35 | +git clone https://aur.archlinux.org/mozc-ut-unified.git | |
36 | +cd mozc-ut-unified | |
37 | +makepkg | |
38 | +sudo pacman -U *.pkg.tar.xz | |
86 | 39 | ``` |
87 | - | |
88 | -## Mozc UT NEologd Dictionary | |
89 | - | |
90 | -It includes only neologd and zipcode dictionaries, so the license is [Apache-2.0](https://github.com/neologd/mecab-ipadic-neologd). | |
91 | -mozcdic-ut-neologd-20200924.1.tar.bz2 | |
92 | -https://osdn.net/users/utuhiro/pf/utuhiro/files/ | |
93 | - | |
94 | -## 更新の概要 | |
95 | - | |
96 | -2010-11-03: Mozc UT辞書をリリース。 | |
97 | - | |
98 | -2016-01-14: Mozc NEologd UT辞書をリリース。コストは mecab-ipadic-NEologd のものをベースにした。 | |
99 | - | |
100 | -2016-10-13: Mozc UT2辞書をリリース。Mozc UT辞書を入れたパーティションを壊してしまったので作り直した。 | |
101 | - | |
102 | -2016-10-20: Mozc UT2辞書のコストをウィキペディア日本語版全記事(jawiki-latest-pages-articles)でのヒット数から算出するようにした。例えば「生物学」のコストを得る場合、「生物学」を全文検索してヒット数が1ならコストは6000、ヒット数が2ならコストは6000-(100*2)、ヒット数が0ならコストは8000、のようにする(数字はダミー)。全記事の検索には長い時間と高い負荷がかかった。 | |
103 | - | |
104 | -2020-01-15: Mozc NEologd UT辞書を公式Mozcパッケージにマージした形で配布するのをやめた。公式Mozcにはパッチがいくつか必要になっているので、辞書も追加ファイルの1つにするほうが扱いやすいと判断した。 | |
105 | - | |
106 | -2020-02-06: Mozc NEologd UT辞書のコストを、ウィキペディア日本語版全見出し(jawiki-latest-all-titles)での前方一致検索で得たヒット数をベースにしたものに変更した。これで「三浦大知」が「三浦大地」より優先されるようになった。全見出しの前方一致検索は、全記事の検索と違って短時間で処理が終わる。 | |
107 | - | |
108 | -2020-06-11: 2代目Mozc UT辞書をリリース。Mozc UT2辞書とMozc NEologd UT辞書をまとめた形だが、辞書作成用のコードはほとんど書き直した。UT2辞書に相当する部分は全記事の検索をやめて、NEologd辞書と同じように全見出しの前方一致検索で得たコストをベースにした。辞書の組み合わせを変えて配布するときは、「mozcdic-utからの派生」という意味でファイル名を「mozcdic-ut-*」とした。 | |
109 | - | |
110 | -2020-06-22: jawiki-articles辞書を追加。全見出しを表記とし、対応する記事から読みを得て、辞書を作成した。コストは全見出しの前方一致検索で得たヒット数をベースにした。jawiki-articles辞書はユーザー自身でアップデートでき、新しい人名や用語への対応が容易。1人の努力に頼り切らない仕組みが必要だと考えた。 | |
111 | - | |
112 | -[HOME](http://linuxplayers.g1.xrea.com/index.html) | |
113 | - |