Kill one bird with two stones.

情報推薦、情報抽出を研究している大学院生の基本的にやったことのメモとか

Wikipediaのデータをデータベースに入れる。

Wikipediaのダウンロードできるデータファイル一覧 | mwSoft

ここで紹介されているWikipediaのデータをデータベースに入れる方法。

だいたいひとつ入れるのに1日かかるので帰る前とか時間があるときにやる方がいい。

MySQL/Ubuntuを使用する。

あとApache,MySQL,PHP,PHPMyadminもインストール済みの環境と考える。

page.sqlとcategorylinks.sqlをインポートした時の方法

BigDump: Staggered MySQL Dump Importer

から、bigdump.zipをダウンロードし、Apacheでアクセスできるフォルダにいれておく。

bigdump.phpを適当に開いて

// Database configuration

$db_server = 'localhost';
$db_name = '';
$db_username = '';
$db_password = '';

を自分の環境に合わせて設定。

また、インポートしたいpage.sql,categorylinks.sqlを同じフォルダ内に入れておく。

照合順序がbinaryになってるため、大文字小文字を厳密に考慮すべきアプリケーションの場合は、Web上でbigdump.phpを開いて
Start Importをクリックして開始。問題なければ、そのまま進む。

もし、大文字、小文字どちらでも検索できるようにしたい場合は、

適当なエディタで開いてvarbinaryをvarcharに

CREATE TABLE文の最後の照合順序を示すところのbinaryをutf8に変更して上書きして、bigdump.php上から開始すればOK

page.sqlの場合
を参考にしてUNIQUE INDEXを消して登録すればOK.

あとはPHPMyadmin上からINDEXを設定するなりする。

つまづきやすい点としては
・照合順序がbinaryになっている点。ここをutf8に変更すれば一応日本語で大文字小文字考慮しないで扱えるはず
sqlを開く。Windows上ではほぼ間違いなくメモリの都合で開けないため、サーバー上の端末から開くことを推奨