2010年2月4日木曜日

[Wikipedia] WikipediaのデータをMySQLに読み込む

□リンク
 −Data dumps 詳細
  http://meta.wikimedia.org/wiki/Data_dumps

 −データダウンロード
  http://download.wikimedia.org/

  例えば、下記をダウンロード
   jawiki-2010xxxx-pages-articles.xml.bz2
   jawiki-2010xxxx-category.sql.gz
   jawiki-2010xxxx-categorylinks.sql.gz

□MediaWikiを使ってMySQLに読み込む
 −MediaWiki
  http://www.mediawiki.org/wiki/Manual:importing_XML_dumps

 −MySQLの設定
  /etc/my.cnf を編集
   max_allowed_packet = 32M

 −MySQLの再起動
  /etc/rc.d/init.d/mysqld stop
  /etc/rc.d/init.d/mysqld start

 −MySQLの設定の確認
  mysql> show variables like 'max_allowed_packet';

 −データベースとテーブルの作成
  mysql> ceate database wikipedia;
  mysql> use wikipedia
  mysql> source mediawiki-1.15.1/maintenance/tables.sql;

  ※tables.sql はmediawikiに含まれる
   mediawiki-1.15.1/maintenace/tables.sql

 −データのインポート
  $ gunzip jawiki-2010xxxx-category.sql.gz
  $ gunzip jawiki-2010xxxx-categorylinks.sql.gz

  $ mysql -u root -p wikipedia < jawiki-20090707-category.sql
  $ mysql -u root -p wikipedia < jawiki-20090707-categorylinks.sql

  $ java -jar mwdumper.jar --format=sql:1.5 jawiki-2010xxxx-pages-articles.xml.bz2 | mysql -u login_name -p wikipedia

0 件のコメント:

コメントを投稿