ウィキペディアを持ち歩け! 〜wikipedia-fpw を使って長期戦〜
!def(FILE,wikipedia-fpw-20091202)
○○ はじめに ○○
○ Important ○
一度、辞書を作成した後に、再度、辞書を作りたいという場合は、この章のはじめから再度、作業を行うことで可能です。
前章までの作業を再度行う必要はありません。
それから、この章では大きいサイズのファイルを扱います。HDDに十分な空き容量があることを確認してから実行してください。
2010年以降のウィキペディアのEPWING形式辞書の作成には20GB以上のディスクの空きが必要です。
○ Important ○
このページの内容を大きく変更しました。ちなみにまだ書きかけの記事です。
昔のページでいいという方は、旧ページ を参考にしてください。
○○ いよいよ作成、でもその前に・・・ ○○
さて、やっとこさ、ここまできましたね。
しかし、ここからが勝負ですよ!
なんてったって、かなりの時間がかかるのですからね。
さあ、深呼吸して、いざ、出撃!
以前はこのページでかなり複雑で、間違いやすそうな作業方法を提示していました。
それを改善すべく、コマンド一発で作業できるようにしました。なんか、ものたりなくなりますけどね。
でも、その前に確認しておくことが。
ここでは、「bunzip2」という解凍コマンドと、「wget」というダウンロードコマンドを使います 。これまでは使ってこなかったので影響はなかったのですが、今回はこれらがないと作業できません。
なので、まずはこれら2つのコマンドがちゃんと Cygwin にインストールされているか確認しましょう!
まずは、次のコマンドで「bunzip2」がインストールされているかどうかを調べてみましょう。
注意すべきは、「V」は、半角大文字のV(ブイ)ですよ。
そしたら、次のコマンドで「wget」がインストールされているかどうかを調べてみましょう。
ここでも注意すべきは、「V」は、半角大文字のV(ブイ)ですよ。
で、インストールされていない場合、次のように表示されます。
こうなってしまった場合、これらのコマンドがインストールされていないこととなり、その場合、これから行う作業が実行できません。
第2章 に戻って、これらのコマンドをインストールしてから、この章にきてください。既存のCygwin環境をアンインストールする必要はありません。そのまま追加する形で、「bzip2」「wget」の2つをダウンロード、インストールすればOKです。 「第3章 FreePWING を導入する」は飛ばしてけっこうです。
また、ここまできたら上のコマンドでインストールされているかどうかチェックしてみましょう。
それから、これからの作業は長いですが、もし実行中のコマンドを中止したくなったら、キーボードで「Ctrl + C」を押すことで実行を中止することもできます。
○○ いよいよ作成、レッツゴー! ○○
下にある「wpwing2.sh 」をダウンロードして上のキャプチャのようにホームディレクトリにおいてください 。
ちなみに、「wget」「bunzip2」コマンドがインストールされていない(Cygwin でコマンドを入力しても『command not found』と表示される)と正常に動作しない ので注意してください。これについてはこのページの上部に書いているので、そこで確認を。
2009年以降のウィキペディアを変換するには、15GBくらい空きがあったほうが無難です。CドライブはOSやらプログラムやらが入っていて、そんなに容量はないと思われるので、Dドライブ直下に「WikipediaEPWING」フォルダを作成し、その中で変換するようにします。
Dドライブにも空きがない場合はどうにもなりませんが、外付けHDDなどがあれば『D:\』の部分(3か所)を適当に変更して使用 してください。
wpwing2.sh はホームディレクトリにおいてください。
wpwing2.sh (右クリック⇒対象にファイルを保存)
↓ wpwing2.sh の中身はこれです ↓
# Dドライブに「WikipediaEPWING」フォルダを作成
mkdir D:\ WikipediaEPWING
# カレントディレクトリを「D:\WikipediaEPWING」に変更
cd D:\ WikipediaEPWING
# wikipedia-fpw を「D:\WikipediaEPWING」にダウンロード
wget http://ikazuhiro.g.ribbon.to/dic/files/wikipedia-fpw-20090126-src.tar.gz
# wikipedia-fpw を解凍
tar zxvf wikipedia-fpw-20090126 -src.tar.gz
# ウィキペディアの元データをダウンロード
wget http://download.wikimedia.org/jawiki/latest/jawiki-latest-pages-articles.xml.bz2
# ウィキペディアの元データを解凍した後、削除
bunzip2 -v jawiki-latest-pages-articles.xml.bz2
# wikipedia-fpw を削除
rm wikipedia-fpw-20090126 -src.tar.gz
# 解凍してできたファイルを「wikipedia.xml」に名前を変更
mv jawiki-latest-pages-articles.xml wikipedia.xml
# wikipedia.xml を wikipedia-fpw のディレクトリに移動
mv wikipedia.xml wikipedia-fpw-20090126 /
# カレントディレクトリを wikipedia-fpw のディレクトリに変更
cd wikipedia-fpw-20090126
# fpwmake を実行
fpwmake
# fpwmake catalogs を実行
fpwmake catalogs
# fpwmake package を実行
fpwmake package
# 完成したファイル「wikipedia-fpw-20090126.zip」を「D:\WikipediaEPWING」に移動
mv wikipedia-fpw-20090126 .zip ../
# カレントディレクトリを「D:\WikipediaEPWING」に変更
cd D:\ WikipediaEPWING
# wikipedia-fpw のディレクトリを削除
rm -rf wikipedia-fpw-20090126
# 終了したことをターミナルに表示
echo "Wikipedia-EPWING was created!!"
wikipedia-fpw がバージョンアップした場合は、青色の部分のURL を『最新の wikipedia-fpw のURL』に置き換えてください。また、6か所ある緑色の部分の日付 を『最新の wikipedia-fpw のファイル名に含まれる日付』に置き換えてください。コメントも必要ならば適当に変更してください。
Dドライブに空きがなく、別のドライブを使用したい場合は、3か所ある赤色の部分 を『使用するドライブのもの』に置き換えてください。コメントも必要ならば適当に変更してください。
それから、妙なおせっかいはいらないという方のために、以前までの旧ページ もとっておいてありますが、こちらはもう更新しないと思います。
あと、Cドライブに十分に空きがある、またはCドライブしかないという方には、従来通り、ホームディレクトリで作業する「wpwing.sh 」もあるので、これを「右クリック⇒対象にファイルを保存」で保存してください。実行する際は、以降の文章中の「wpwing2.sh」を「wpwing.sh」に読みかえてご覧ください。
wpwing.sh
さて、ここでは、wikipedia-fpw を使って、「Wikipedia 日本語版」で配布されているデータを EPWING 形式に変換します。
ここでの作業が終了した時点で、オフライン版ウィキペディアの作成は終了するのです。
「Wikipedia:データベースダウンロード」にアクセスして、「ウィキペディア日本語版」のリンクをクリックしてください。
○ Wikipedia:データベースダウンロード
http://ja.wikipedia.org/wiki/Wikipedia:%E3%83%87%E3%83%BC%E3%82%BF%E3%83%99%E3%83%BC%E3%82%B9%E3%83%80%E3%82%A6%E3%83%B3%E3%83%AD%E3%83%BC%E3%83%89
なんか、このページ、一部か全部が削除されかけてるみたいです。
一応、下にも「ウィキペディア日本語版」へのリンクを張っておきます。
○ ウィキペディア日本語版
http://download.wikimedia.org/jawiki/
2009/2/14 での最新版は、2009年1月24日版 です。ここでは、現時点で最新のものをダウンロードすることになります。これは紹介です。あとでダウンロードするので今はダウンロードしなくていいですよ。
ずらずら〜っといろんなファイルが並んでいますね。ここで必要なのは「jawiki-latest-pages-articles.xml.bz2 」というファイルだけです。
1GB以上ありますので、ダウンロードに時間がかかります。
!image(../image/wiki/pedia/fpw/2.jpg)
それから、もう1つ必要なファイルがあります。
Kazuhiro さんの wikipedia-fpw のサイトにある「wikipedia-fpw」が必要で、これがないと変換できません。
http://ikazuhiro.g.ribbon.to/dic/wikipedia-fpw.html
「FILE-src.tar.gz」 をダウンロードすることになります。2010/09/06 時点で最新のものです。これも紹介です。あとでダウンロードするので今はダウンロードしなくていいですよ。
ではでは、作業を開始しましょう!
Cygwin を起動して、何事もなかったかのように以下のコマンドを入力してください。
実行したらすかさず次の作業を手作業で!
Dドライブ(または自分で指定したドライブ)の直下に「WikipediaEPWING」というフォルダがありますよね。それを開いてください。
中ではすでに自動的に「wikipedia-fpw」の圧縮ファイルが展開されて、フォルダができてると思うので、それを開いてください。
その中にある「wikipedia-fpw.conf」をエディタ(私は EmEditor を使っていますが)で開き、39行目の
'enable_math' => 1,
を
'enable_math' => 0,
になおして上書き保存してください。今はとりあえず、こうしてください。
これであとは待つだけです。Cygwin がウィキペディアのデータベースをダウンロードしているうちにやってしまいましょう!
これをしないと、途中で止まっちゃうよ。
解凍、圧縮のところで見た目は止まっているように見えるかもしれませんが、ちゃんと動いているので最後まで待ってあげてください。待つだけでいいですから。
そうすると、何事もなかったかのように、この章でこれまで扱ってきたすべての処理(コマンド入力も手作業の操作もダウンロードも)をすべてスクリプトで自動的にやってくれます。あとは終わるのをひたすら待つだけ〜♪
必要であれば、適宜シェルスクリプトを編集してください。
終わった〜!!
「Wikipedia-EPWING was created!!」と表示されたら作業完了です♪
長かった辞書データ作成作業も、とりあえずここで終了しました!
おつかれさまです!!
そのまま Cygwin を閉じてしまってかまいません。
以下のコマンドを入力しても、そのままウィンドウを閉じても同じです。
なお、自動的にダウンロードするので特に常に用意しておく必要はないのですが、万が一のことを考えて、「FILE-src.tar.gz」をどこかに保存しておくことをおすすめします。これがないと何もできませんからね。作業が終わったら、自分でダウンロードしなおして控えておいてくださいな。
作業終了後、余計なファイルは削除されます(ウィキペディアの元データは解凍した時点で削除されていますが)。
Dドライブ(または自分で指定したドライブ)の「WikipediaEPWING」フォルダにウィキペディアをEPWING化したものの圧縮ファイルが残ります。
○○ 途中経過 ○○
せっかくなので、「./wpwing2.sh」実行後の途中経過を見てみましょう。
一瞬で「wikipedia-fpw」のダウンロードと展開が終わります。
そのあとすぐ、ウィキペディアのデータベースをダウンロードしはじめますが、容量が大きいので、けっこうな時間がかかります。進捗状況と推定残り時間が表示されるようになっているみたいなので、『いつ終わるかわからない恐怖』がないのが幸いなところ。
キャプチャし忘れたけど、ウィキペディアのデータベースの展開にはけっこうな時間がかかるほか、進捗状況が分からず、フリーズしているのではないかと思ってしまうかもしれませんが、その不安を振り切って、じっと待ってあげましょう。
そのあと、勝手に展開ファイル名を「wikipedia.xml」にしたり、先にダウンロードした2つのファイルを容量確保のため削除したりしつつ、「fpwmake」を実行してたらたら〜っと流れだします。
なんか、ぐだぐだといっぱい妙な文字列が走っていきます。
でも、なんかすごく流れが早いですね。これだったら何時間もかからないんじゃないかい?
おやっ。おほっ!
798秒ってことは、13分程度ですか。楽勝じゃん!
ちぇっ、フェイントですか。まだまだかかります。
ここからは流れが低速になります。
「Safari」とかなんとか、意味ありげな単語も流れていきます。
でも、ずっと見てると目が疲れますよ。
ところどころ、「warning」がでてきますね。ほっといていいんですけどね。たぶん、該当するウィキペディアのページに問題があるんでしょう。タグとか。
この時点では、まだまだ序盤です。音楽を聴くとか、読書をするとか、テレビゲームでもやってみるとか、あるいは切迫しているレポートを攻略する、なんてことをしていましょうか。パソコンから離れる時間ができたので、掃除!でもいいですよね。
パソコンをほっといて外出するのも手かもしれませんが、何かあったときにすぐに対応できませんよ。
ここまできてやっと変換終了ですな。変換に要した時間と、項目数も表示されています。
○○ 変換作業時間の参考 ○○
私の環境(第1章「プロローグ 」参照)ではこれくらいの時間でした。もっと性能のいいパソコンならもう少し早いかもしれませんが、時間がかかることにはかわりありません。
2008年11月27日版ウィキペディアの作成後の結果です。
項目数は、545026、かかった時間は8270秒でした。
2009年1月1日版ウィキペディアの作成後の結果です。
項目数は、620209、かかった時間は9237秒でした。
裏で作業をしていたため時間がかかりました。作成後圧縮ファイルの容量は850MB程度です。
2009年1月25日版ウィキペディアの作成後の結果です。
項目数は、628714、かかった時間は12821秒でした。
裏で作業をしていたため時間がかかりました。作成後圧縮ファイルの容量は850MB程度です。
○○ 作業が完了したら ○○
「WikipediaEPWING」フォルダの中を見てみましょう。
ちゃんと「FILE.zip」というファイルがありますよね。
「FILE.zip」の中身です。
「WIKIP」というフォルダがあります。
「WIKIP」の中身です。
さらに「WIKIP」というフォルダがあります。そして、3つのファイルも存在します。
「WIKIP/WIKIP」の中身です。
さらに「DATA」「GAIJI」というフォルダがあります。
「WIKIP/WIKIP/DATA」の中身です。
「HONMON」というファイルがあります。今回の主役です!
このでかいファイルがウィキペディアの辞書ファイルです。今は圧縮されているのでサイズが小さいですが、展開すると1.8GB以上あります。
「WIKIP/WIKIP/GAIJI」の中身です。
何も入っていません。
デスクトップ(または適当なフォルダ)に移動しましたか?
そしたら、中身をすべて展開しましょう!
展開できましたね。
あと、「FILE.zip」は何が起こってもいいようにとりあえずリナザウで見れるようになるまではとっておきましょう。
さて、これで作業は完了です!
お茶でも飲んで、次に行きましょうか。
それから、冒頭にも書きましたが、また最新のウィキペディアデータがでてきて、それの辞書を作りたい、というときは、この章のはじめからやればOKです。前章までの作業は必要ありません。
○○ リンク ○○
前へ <<< 「ウィキペディアを持ち歩け!」 >>> 次へ