ウィキペディアを持ち歩け! 〜wikipedia-fpw を使って長期戦〜



○○ はじめに ○○



○ Important ○

一度、辞書を作成した後に、再度、辞書を作りたいという場合は、この章のはじめから再度、作業を行うことで可能です。
前章までの作業を再度行う必要はありません。

それから、この章では大きいサイズのファイルを扱います。HDDに十分な空き容量があることを確認してから実行してください。

2009年以降のウィキペディアのEPWING形式辞書の作成には15GB程度のディスクの空きが必要です。



○○ いよいよ作成 ○○

さて、やっとこさ、ここまできましたね。
しかし、ここからが勝負ですよ!
なんてったって、かなりの時間がかかるのですからね。

さあ、深呼吸して、いざ、出撃!

ここでは、wikipedia-fpw を使って、「Wikipedia 日本語版」で配布されているデータを EPWING 形式に変換します。
ここでの作業が終了した時点で、オフライン版ウィキペディアの作成は終了するのです。

ちなみに、これからやっていくことをもっとカンタンにすませたい場合はこちら







「Wikipedia:データベースダウンロード」にアクセスして、「ウィキペディア日本語版」のリンクをクリックしてください。


○ Wikipedia:データベースダウンロード
http://ja.wikipedia.org/wiki/Wikipedia:%E3%83%87%E3%83%BC%E3%82%BF%E3%83%99%E3%83%BC%E3%82%B9%E3%83%80%E3%82%A6%E3%83%B3%E3%83%AD%E3%83%BC%E3%83%89



なんか、このページ、一部か全部が削除されかけてるみたいです。
一応、下にも「ウィキペディア日本語版」へのリンクを張っておきます。


○ ウィキペディア日本語版
http://download.wikimedia.org/jawiki/







2009/2/14 での最新版は、2009年1月24日版です。

さらに最新のものがあれば、そちらをダウンロードすることをおすすめします。

まあ、とやかく言わずに「latest」をクリックしておきましょう。
ここをクリックすると、その時点で最新のウィキペディアデータをダウンロードすることができます。







さて、ずらずら〜っといろんなファイルが並んでいます。
ここで必要なのは「jawiki-latest-pages-articles.xml.bz2」というファイルだけです。
それを探して、クリックしてダウンロードしましょう!

900MB近くありますので、ダウンロードに時間がかかります。
デスクトップにでも保存しておけばいいでしょう。あとで、cygwin のホームディレクトリに移すので、同じCドライブ(まぁ、とにかくcygwinをインストールしたドライブと同じドライブ)に保存しておくことをお勧めします。
といっても、Cドライブに15GBの空き容量の確保は難しい。というわけで、下のほうに便利なものがあります。環境によっては使えませんけど。

ちなみに、これを展開するとさらに大きいのが出てくるのですが、それは後の話。







それから、もう1つ必要なファイルがあります。
Kazuhiro さんの wikipedia-fpw のサイトにアクセスして、「wikipedia-fpw」本体をダウンロードします。これがないと変換できません。


http://ikazuhiro.g.ribbon.to/dic/wikipedia-fpw.html


「wikipedia-fpw-20090126-src.tar.gz」をダウンロードしましょう。2009/2/14 時点では最新のものです。
それをダウンロードしてください。デスクトップにでもおいておけばいいと思います。

さらにそれより新しいものがあれば、そちらを使ってください。







さて、今ダウンロードした2つのファイルがデスクトップ(またはあなたのダウンロード先)にありますよね。







この2つのファイルのうち、「jawiki-latest-pages-articles.xml.bz2」のほうをデスクトップ(またはあなたのダウンロード先)に、ここで展開(解凍)してしまいましょう。
サイズが大きいので、展開にも時間がかかります。



 ⇒ 



さてさて、「jawiki-latest-pages-articles.xml」というファイルが出てきましたよね。
ここで、このファイルの名前を変更します。

「jawiki-latest-pages-articles.xml」⇒「wikipedia.xml」

このとき、決してダブルクリックなどしてファイルを開かないでくださいね。
3GB以上あるので、やばいことになります。ご注意ください!

展開できたら、「jawiki-latest-pages-articles.xml.bz2」は削除してもかまいません。







さて、「wikipedia-fpw-20080616-src.tar.gz」「wikipedia.xml」の2つをcygwin のホームフォルダに移動します。ホームフォルダについては、前章でも説明しているのでいいですよね。
私の場合は「C:\cygwin\home\asari」となっています。(asari = ユーザー名)







これで事前準備はすべて完了しました!
さっそく、cygwin を起動しましょう。







まずは、「dir」コマンドを入力して、ちゃんと2つのファイルがホームフォルダにあるかどうか確認してみてください。




dir








では、ここで「wikipedia-fpw-20080616-src.tar.gz」を展開しましょう。
展開は、以下のコマンドでしたよね。




tar zxvf wikipedia-fpw-20080616-src.tar.gz








展開直後のホームフォルダの様子です。
展開したので、「wikipedia-fpw-20080616」というフォルダができあがっていますね。







次に、「mv」コマンドで「wikipedia.xml」を先ほど展開したフォルダ「wikipedia-fpw-20080616」に移動します。




mv wikipedia.xml wikipedia-fpw-20080616/








移動直後のホームフォルダの様子です。
「wikipedia.xml」が消えていますが、なくなったのではなく、「wikipedia-fpw-20080616」に移動したのですよ。







「wikipedia-fpw-20080616」フォルダの様子です。
「wikipedia.xml」がありますよね。







そしたら、「cd」コマンドで先ほど展開したフォルダの中へ移動します。




cd wwikipedia-fpw-20080616








現在のフォルダが移りましたよね。







さて、ここからが本番です!
かなり長い作業が待っています!
といっても、ここからは作業するのはパソコンであって、あなたは待っているだけでいいのです。
数時間かかりますので、この作業は時間のある時か、寝ている夜中にやったほうがいいかもしれません。
でも、寝ていたら万が一何かあったとき、対応できませんけどね。
あなたならどうします?

作業中もパソコンの操作はできますが、あまりおすすめしません。何が起こるかわかりませんからね。
ですので、しばらくパソコンの操作はできないと思っていてください。
かなり時間がかかるので、やっておかなくてはいけないことを先にやっておいてください。

ここでは、たった1行だけ入力します。
これが起動の合図。




fpwmake








なんか、ぐだぐだといっぱい妙な文字列が走っていきます。






でも、なんかすごく流れが早いですね。これだったら何時間もかからないんじゃないかい?







おやっ。おほっ!
798秒ってことは、13分程度ですか。楽勝じゃん!







ちぇっ、フェイントですか。まだまだかかります。






ここからは流れが低速になります。







「Safari」とかなんとか、意味ありげな単語も流れていきます。
でも、ずっと見てると目が疲れますよ。







ところどころ、「warning」がでてきますね。ほっといていいんですけどね。たぶん、該当するウィキペディアのページに問題があるんでしょう。タグとか。
この時点では、まだまだ序盤です。音楽を聴くとか、読書をするとか、テレビゲームでもやってみるとか、あるいは切迫しているレポートを攻略する、なんてことをしていましょうか。パソコンから離れる時間ができたので、掃除!でもいいですよね。
パソコンをほっといて外出するのも手かもしれませんが、何かあったときにすぐに対応できませんよ。







ふぅ〜、やっと終了!
ここまでくるのに、8423秒かかりました。
ということは、約140分、2時間20分程度の時間がかかるんですよね。
かなり長い!!
511861項目が収録されているみたいですね。
私の環境(第1章「プロローグ」参照)ではこれくらいの時間でした。もっと性能のいいパソコンならもう少し早いかもしれませんが、時間がかかることにはかわりありません。


<補足>







2008年11月27日版ウィキペディアの作成後の結果です。
項目数は、545026、かかった時間は8270秒でした。







2009年1月1日版ウィキペディアの作成後の結果です。
項目数は、620209、かかった時間は9237秒でした。
裏で作業をしていたため時間がかかりました。作成後圧縮ファイルの容量は850MB程度です。







2009年1月25日版ウィキペディアの作成後の結果です。
項目数は、628714、かかった時間は12821秒でした。
裏で作業をしていたため時間がかかりました。作成後圧縮ファイルの容量は850MB程度です。


でも、まだ作業が残っていますよ。







その前に、「wikipedia-fpw-20080616」フォルダの様子を見てみましょう。
さっきまでなかった、「honmon」という巨大ファイルができあがっていますよね。
もし、できていない場合は、何か問題があったことになります。もう一度、「fpwmake」を試してみてください。
ちゃんと生成されていることを確認したら、続きへ行きましょう。







次は、以下のコマンドを実行してください。




fpwmake catalogs




また「fpwmake」?
いえいえ、今度は10秒ほどでおわります。
まちがっても、「fpwmake」は実行しないでくださいね。また何時間もかかる作業をしてしまいますから。「fpwmake catalogs」ですよ。







終了しましたね。







「wikipedia-fpw-20080616」フォルダの様子を見てみましょう。
さっきまでなかった、「catalogs」というファイルができあがっていますよね。
それを確認したら、続きへ行きましょう。







では、次に、以下のコマンドを実行してください。これが最後です。




fpwmake package




また「fpwmake」?
いえいえ、これは、10分程度でおわります。
それでも少し時間がかかりますね。
まちがっても、「fpwmake」は実行しないでくださいね。また何時間もかかる作業をしてしまいますから。「fpwmake package」ですよ。







終わった〜!!
長かった辞書データ作成作業も、とりあえずここで終了しました!
おつかれさまです!!
そのままcygwinを閉じてしまってかまいません。
以下のコマンドを入力しても、そのままウィンドウを閉じても同じです。




exit








「wikipedia-fpw-20080616」フォルダの中を見てみましょう。
ちゃんと、「wikipedia-fpw-20080616.zip」というファイルがありますよね。
そいつだけをデスクトップに移動させちゃいましょう。







「wikipedia-fpw-20080616.zip」の中身です。
「WIKIP」というフォルダがあります。







「WIKIP」の中身です。
さらに「WIKIP」というフォルダがあります。そして、3つのファイルも存在します。







「WIKIP/WIKIP」の中身です。
さらに「DATA」「GAIJI」というフォルダがあります。







「WIKIP/WIKIP/DATA」の中身です。
「HONMON」というファイルがあります。今回の主役です!
このでかいファイルがウィキペディアの辞書ファイルです。今は圧縮されているのでサイズが小さいですが、展開すると1.8GB以上あります。







「WIKIP/WIKIP/GAIJI」の中身です。
何も入っていません。







デスクトップ(または適当なフォルダ)に移動しましたか?
そしたら、中身をすべて展開しましょう!







展開できましたね。







それから、「ホームフォルダ」の「wikipedia-fpw-20080616-src.tar.gz」ファイルと「wikipedia-fpw-20080616」フォルダは消してしまいましょう。
とくに、「wikipedia-fpw-20080616」フォルダには巨大なサイズのファイルが眠っているので、消さないとHDDを圧迫するだけのじゃまものですよ。
「wikipedia-fpw-20080616-src.tar.gz」は、次回用に取っておくというのも手ですけどね、容量も小さいので。

あと、「wikipedia-fpw-20080616.zip」は何が起こってもいいように、バックアップ用に取っておいたほうがいいかもしれません。



さて、これで作業は完了です!
お茶でも飲んで、次に行きましょうか。



それから、冒頭にも書きましたが、また最新のウィキペディアデータがでてきて、それの辞書を作りたい、というときは、この章のはじめからやればOKです。前章までの作業は必要ありません。




○○ 今回のコマンド ○○


<今回のコマンド>

dir
tar zxvf wikipedia-fpw-20080616-src.tar.gz
mv wikipedia.xml wikipedia-fpw-20080616/
cd wikipedia-fpw-20080616
fpwmake
fpwmake catalogs
fpwmake package
exit






この下を読み飛ばしたい方はこちら









○○ カンタンにすませたい! ○○

ちなみに、こんなのいちいちやってられないと・・・
いちいち入力するのは面倒だし、間違えそうだと・・・







そういう場合は、これをダウンロードして上のキャプチャのようにホームディレクトリにおいてください
ちなみに、「wget」「bunzip2」コマンドがインストールされていない(Cygwin でコマンドを入力しても『command not found』と表示される)と正常に動作しないので注意してください。


wpwing.sh(右クリック⇒対象にファイルを保存)

でも、Dドライブに保存できるほうを推奨したい(下のほうにあるやつ)


↓ wpwing.sh の中身はこれです ↓

# カレントディレクトリをホームディレクトリに変更
cd ~
# wikipedia-fpw をホームディレクトリにダウンロード
wget http://ikazuhiro.g.ribbon.to/dic/files/wikipedia-fpw-20090126-src.tar.gz
# wikipedia-fpw を解凍
tar zxvf wikipedia-fpw-20080616-src.tar.gz
# ウィキペディアの元データをダウンロード
wget http://download.wikimedia.org/jawiki/latest/jawiki-latest-pages-articles.xml.bz2
# ウィキペディアの元データを解凍した後、削除
bunzip2 -v jawiki-latest-pages-articles.xml.bz2
# wikipedia-fpw を削除
rm wikipedia-fpw-20080616-src.tar.gz
# 解凍してできたファイルを「wikipedia.xml」に名前を変更
mv jawiki-latest-pages-articles.xml wikipedia.xml
# wikipedia.xml を wikipedia-fpw のディレクトリに移動
mv wikipedia.xml wikipedia-fpw-20080616/
# カレントディレクトリを wikipedia-fpw のディレクトリに変更
cd wikipedia-fpw-20080616
# fpwmake を実行
fpwmake
# fpwmake catalogs を実行
fpwmake catalogs
# fpwmake package を実行
fpwmake package
# 完成したファイル「.zip」をホームディレクトリに移動
mv wikipedia-fpw-20080616.zip ../
# カレントディレクトリをホームディレクトリに変更
cd ~
# wikipedia-fpw のディレクトリを削除
rm -rf wikipedia-fpw-20080616
# 終了したことをターミナルに表示
echo "Wikipedia-EPWING was created!!"



2009年1月版のウィキペディアを変換するには、15GBくらい空きがあったほうが無難です。
Cドライブにそんなに空きがないという方は、こちらを使ってみてください。Dドライブに「WikipediaEPWING」フォルダを作成し、その中で変換します。
Dドライブにも空きがない場合はどうにもなりませんが、外付けHDDなどがあれば『D:\』の部分(3か所)を変えて使用してください。
wpwing2.sh はホームディレクトリにおいてください。こちらを使用する場合は以降の記述中の「wpwing.sh」を「wpwing2.sh」に置き換えてご覧ください。


wpwing2.sh(右クリック⇒対象にファイルを保存)


↓ wpwing2.sh の中身はこれです ↓

# Dドライブに「WikipediaEPWING」フォルダを作成
mkdir D:\WikipediaEPWING
# カレントディレクトリを「D:\WikipediaEPWING」に変更
cd D:\WikipediaEPWING
# wikipedia-fpw をホームディレクトリにダウンロード
wget http://ikazuhiro.g.ribbon.to/dic/files/wikipedia-fpw-20090126-src.tar.gz
# wikipedia-fpw を解凍
tar zxvf wikipedia-fpw-20080616-src.tar.gz
# ウィキペディアの元データをダウンロード
wget http://download.wikimedia.org/jawiki/latest/jawiki-latest-pages-articles.xml.bz2
# ウィキペディアの元データを解凍した後、削除
bunzip2 -v jawiki-latest-pages-articles.xml.bz2
# wikipedia-fpw を削除
rm wikipedia-fpw-20080616-src.tar.gz
# 解凍してできたファイルを「wikipedia.xml」に名前を変更
mv jawiki-latest-pages-articles.xml wikipedia.xml
# wikipedia.xml を wikipedia-fpw のディレクトリに移動
mv wikipedia.xml wikipedia-fpw-20080616/
# カレントディレクトリを wikipedia-fpw のディレクトリに変更
cd wikipedia-fpw-20080616
# fpwmake を実行
fpwmake
# fpwmake catalogs を実行
fpwmake catalogs
# fpwmake package を実行
fpwmake package
# 完成したファイル「.zip」をホームディレクトリに移動
mv wikipedia-fpw-20080616.zip ../
# カレントディレクトリを「D:\WikipediaEPWING」に変更
cd D:\WikipediaEPWING
# wikipedia-fpw のディレクトリを削除
rm -rf wikipedia-fpw-20080616
# 終了したことをターミナルに表示
echo "Wikipedia-EPWING was created!!"



そしたら、Cygwin を起動して、何事もなかったかのように以下のコマンドを入力してください。








./wpwing.sh




解凍、圧縮のところで見た目は止まっているように見えるかもしれませんが、ちゃんと動いているので最後まで待ってあげてください。待つだけでいいですから。
そうすると、何事もなかったかのようにこの章でこれまでやってきたすべての処理(コマンド入力も手作業の操作も)をすべてスクリプトで自動的にやってくれます。
必要であれば、適宜シェルスクリプトを編集してください。

作業が終わると、以下のように表示されるので、Cygwin を終了してください。







なお、自動的にダウンロードするので特に常に用意しておく必要はないのですが、万が一のことを考えて、「wikipedia-fpw-20080616-src.tar.gz」をどこかに保存しておくことをお勧めします。これがないと何もできませんからね。
作業終了後、余計なファイルは削除されます(ウィキペディアの元データは解凍した時点で削除されていますが)。







最終的に、ホームディレクトリにはウィキペディアをEPWING化したものの圧縮ファイルが残ります。







「wpwing2.sh」を使用した場合はDドライブの「WikipediaEPWING」フォルダにウィキペディアをEPWING化したものの圧縮ファイルが残ります。








○○ リンク ○○

前へ <<< 「ウィキペディアを持ち歩け!」 >>> 次へ






inserted by FC2 system