Kill one bird with two stones.

情報推薦、情報抽出を研究している大学院生の基本的にやったことのメモとか

wikipediaのカテゴリ情報を入れる(new)

Wikipediaのダウンロードできるデータファイル一覧 | mwSoft

で紹介されていて、過去に

Wikipediaのデータをデータベースに入れる。 - Kill one bird with two stones.

で紹介した、Wikipedia Category links をMySQLDBに入れる方法。

 

環境は前回と同じく

PHP+MySQL+Ubntuで

 

 

ファイルのダウンロードと解凍

wget http://dumps.wikimedia.org/jawiki/latest/jawiki-latest-category.sql.gz

 

解凍は例えば /home/userにファイルをダウンロードしたならそのディレクトリで

gunzip jawiki-latest-category.sql.gz

でOK

ちょっとデータをいじる

vim派なんでvim使うけど、

vim jawiki-latest-category.sql

で開いてデータを見てみるといいかもしれない。

でvarbinaryとなってるのがわかると思う。

varbinary型のままでいいならいいけど、

扱いずらいならばvarcharに書き換えて保存してやるといいと思う。

 

MySQLにデータを突っ込む

mysql -u root -p

mysqlクライアントに入る。

DBを作っていない場合

 

Create DATABASE hogehoge

でDBを作った後、

use hogehoge

して、

source: jawiki-latest-category.sql

すれば実行されるけどかなり時間がかかるので

sshログインより、サーバー上のターミナルから入って放置の方がいいかも。