Wikipediaのダウンロードできるデータファイル一覧

概要
このコンテンツでは、人工無脳の作成に役立たないかなぁと考えながらWikipediaからダウンロードできるデータを眺めた人間が、自分用に情報をまとめた資料です。

Wikipediaではクロール行為は禁止されています(ここを見る限りでは)。その代わり、データを圧縮したものが公開されています。

日本のWikipedia情報ダウンロードページ
http://download.wikimedia.org/jawiki/latest/

書いてる人間はWikiについて勉強したことがないので、正確さを欠く記述が存在する可能性があります。また、このコンテンツは2009年の10月下旬に取得した情報を元に書いています。時間が経つと結果が変わる可能性があるのでご注意ください。
事前情報
2009/10/25に確認した時点では、日本語Wikipediaのダウンロードページには55個のファイルが置いてありました(うち半分は更新を通知する為のRSS)。

ファイルの形式は「XML」「MySQLのダンプ」「テキスト」などがあります。

圧縮形式は「gzip」「bzip2」「7zip」の3種類があります。Linuxでの7zipの解凍は我が家では「p7zip」を使用しました。「yum install p7zip」、もしくは「apt-get install p7zip」でインストールできます。

ファイルのダウンロード、解凍、解析もしくはDBへの登録は、ファイルによっては平気で丸一日かかる為、スクリプト等で自動実行することをオススメします。

詳しいデータのインポート方法は、こちらのリンク集が参考になると思います。

各テーブルの公式説明はこちら
http://www.mediawiki.org/wiki/Manual:Database_layout/ja

もし本記事の内容に間違いなどがありましたら、こちらのフォームよりご指摘頂けるとありがたいです。
ダウンロードできるファイル(2009/10/25~29頃調査)
ファイル名サイズ件数概要
abstract.xml922.2M631,006全ページの要約(タイトル、ディスクリプション、構成要素)
all-titles-in-ns05.9M→21M1,006,242全ページのタイトルを記述したテキストファイル
category.sql0.9M→3.6M87,787カテゴリ一覧
categorylinks.sql46M→211M2,869,016カテゴリのリンク情報
externallinks.sql31M→166M969,749外部リンク情報
image.sql9M→50M71,125画像情報
imagelinks.sql13M→62M1,980,954画像のリンク先情報
interwiki.sql8K→36K662ウィキ間リンク先情報
langlinks.sql40M→134M3,871,273各ページの「他の言語」情報
×oldimage.sql1M→5M10,608過去のリビジョンの画像情報
page.sql54M→140M852,372ページ情報(page_idやタイトル等)
×page_props.sql3K→13K852,372ページのプロパティー
×page_restrictions.sql50K→373K7226ページの保護情報
pagelinks.sql347M→1.4G46,733,166ページ間のリンク情報
pages-articles.xml1G→4.1G1,227,154全ページの最新の記事本文を含むXML
×pages-logging.xml46M→433M1,000,000Wikipediaのページに対する操作ログ
pages-meta-current.xml1.2G→5.4G1,621,574pages-articles.xmlと同じ構成・内容のXML(議論ページなども含む)
pages-meta-history.xml2.8G→?編集履歴まで含んだ超巨大ファイル。解凍後は200G超えるらしい。スペックの都合により未検証。
×protected_titles.sql66K→477K3,278編集制限されたページと、その制限事由の一覧
redirect.sql4M→14M403,561リダイレクト先一覧
site_stats.sql1.7K→1K1ページ数や閲覧総数などの情報
×stub-articles.xml73M→475M1,227,154pages-articles.xmlの本文を除いた版
×stub-meta-current.xml96M→632M1,621,574 pages-meta-current.xmlの本文を除いた版
stub-meta-history.xml1G→7.4G1,621,574pages-meta-history.xmlの本文を除いた版
templatelinks.sql22M→112M4,242,203使用しているテンプレートの情報
×user_groups.sql2K→4.5K206ユーザグループ情報
◎便利そう    ○使うかも    △使うだろうか  ×使わないので説明省略  (全て筆者主観)

※ファイル名は前部の「jawiki-latest-」を除く
※サイズは解凍前→解凍後のファイルサイズ

jawiki-latest-abstract.xml
全ページの要約(タイトル、ディスクリプション、構成要素)


概要
1GB近くある巨大XMLファイル。通常のエディタではおそらく開けない。
ファイルの一部 <doc> <title>Wikipedia: コケ植物</title> <url>http://ja.wikipedia.org/wiki/%E3%82%B3%E3%82%B1%E6%A4%8D%E7%89%A9</url> <abstract>コケ植物(こけしょくぶつ、)は、原始的な陸上植物の一群である。コケ類(こけるい)や蘚苔類(せんたいるい)、蘚苔植物(せんたいしょくぶつ)などともいう。世界中でおよそ2万種ほどが記録されている。多くは緑色であるが、赤色や褐色の種もある。</abstract> <links> <sublink linktype="nav"> <anchor>形態的特徴</anchor> <link>http://ja.wikipedia.org/wiki/%E3%82%B3%E3%82%B1%E6%A4%8D%E7%89%A9#.E5.BD.A2.E6.85.8B.E7.9A.84.E7.89.B9.E5.BE.B4</link> </sublink> <sublink linktype="nav"> <anchor>生活環</anchor> <link>http://ja.wikipedia.org/wiki/%E3%82%B3%E3%82%B1%E6%A4%8D%E7%89%A9#.E7.94.9F.E6.B4.BB.E7.92.B0</link> </sublink> <以下のsublinkは略> </links> </doc>
上記内容は、「Wikipedia: コケ植物」の情報を含んでいます
http://ja.wikipedia.org/w/index.php?title=%E3%82%B3%E3%82%B1%E6%A4%8D%E7%89%A9&oldid=28093612

上記ページを見ると分かる通り、abstractがDescription的な位置に表示され、sublinkはそれ以降の各ブロックを指しています。


用途
abstractの最初に括弧で読みを振る習慣があるようなので、読み仮名付き辞書を作る素材として使えそうです。

jawiki-latest-all-titles-in-ns0.gz
全ページのタイトルを記述したテキストファイル


概要
改行コード(CR)で区切ってWikipediaの全記事ページのタイトルが記述されています。
ファイルの一部 ランスモール ランスロ ランスロット ランスロット_(コードギアス) ランスロット_(小惑星) ランスロット_(曖昧さ回避) ランスロット・アルビオン

用途
このファイルの情報を使って辞書ファイルを生成している人もいるようです。

曖昧さを回避する為に括弧内の文字で区別しているものや、「-10」、「1999年」などのただの数字や年号、それに「2000年代のSF映画の一覧」のような一覧ファイルへのリンクも含まれているので、多少の取捨選択は必要になりそうですが。
jawiki-latest-category.sql.gz
カテゴリ一覧


概要
http://ja.wikipedia.org/wiki/Category:カテゴリ名
のような形式のURLのページを出力する為の情報です。

カラム名内容
cat_idintauto incrementのID。
cat_titlevarchar(255)カテゴリ名。「1975年の映画」とか、「削除依頼中の記事」とか。
cat_pagesintカテゴリに属するページ(サブカテゴリ + カテゴリにあるページ)の数。例えば「セネガルの地形」は5つのページが登録されているとか。
cat_subcatsintサブカテゴリの数。例えば「日本の峠」は9つのサブカテゴリを持っているとか。
cat_filesintカテゴリ「カテゴリ名」にあるメディアの箇所に表示しているファイルの数。ほとんどのカテゴリは0(ファイルを持っていない)。コモンズと重複しているメディア辺りはたくさんファイルを保持している。
cat_hiddenintReserved for future use(将来使うかも)だそうです。現状は全レコード「0」が登録されています。


用途
うーん、言語解析には特には役立たない気が。

jawiki-latest-categorylinks.sql.gz
カテゴリのリンク情報


概要
http://ja.wikipedia.org/wiki/Category:カテゴリ名
のような形式のURLのページを出力する為の情報です。

カラム名内容
cl_fromintpageテーブルのpage_idに紐付く。
cl_tovarchar(255)cl_fromが該当するカテゴリ名。
cl_sortkeyvarchar(255)ソート用の読み仮名。「64GBパック」であれば「ろくよんしいひいはつく」のように、濁点などのない平仮名で形成される。
cl_timestamptimestamp

568868(67式30型ロケット弾発射機)のレコード例
cl_fromcl_tocl_sortkeycl_timestamp
568868ロケット砲67しき30かたろけつとたんはつしやき2006-12-19 19:44:57
568868武器・兵器関連のスタブ67しき30かたろけつとたんはつしやき2008-10-21 19:25:32
568868自走砲67しき30かたろけつとたんはつしやき2006-12-19 19:44:57
568868陸上自衛隊67しき30かたろけつとたんはつしやき2008-10-21 19:25:32

Wikipedia:67式30型ロケット弾発射機
http://ja.wikipedia.org/w/index.php?title=67%E5%BC%8F30%E5%9E%8B%E3%83%AD%E3%82%B1%E3%83%83%E3%83%88%E5%BC%BE%E7%99%BA%E5%B0%84%E6%A9%9F&oldid=27964392

上記のページを見ると「ロケット砲」、「自走砲」、「陸上自衛隊」の3つのカテゴリに所属しています。「スタブ」は「まだ成長していない項目」のことで、ページには表示されません。

用途
pageテーブルと組合わせて、どのページがどのカテゴリに所属しているかを一望できます。また、cl_toで検索することで、同じカテゴリに所属する言葉を取得することもできます。

カテゴリのパターンを把握することで、手持ちの辞書ファイルに登録されていない地名や映画のタイトルなどを効率よく抽出する用途にも使えるかもしれない。

jawiki-latest-externallinks.sql.gz
外部リンク情報


概要
カラム名内容
el_fromintpageテーブルのpage_idに紐付く。
el_toblobリンク先URL。
el_indexblobuser/passwordを除いて、ドメインを逆転させたURL。

el_fromel_toel_index
3540http://www.sangiin.go.jp/http://jp.go.sangiin.www./
※3540は国会_(日本)を指す。


用途
Wikipediaのページから1つの単語に関わる用語を抽出する際に、外部リンク先のページに含まれる文章もまとめて解析にかけてしまうとか。

jawiki-latest-image.sql.gz
画像情報


概要
画像名、画像のタイプ、ディスクリプションなどが保存されている。

どの画像がどのページに関連付けられているかは、imagelinksテーブルに格納されている。

img_name img_size img_width img_height img_metadata img_bits img_media_type
!!!三光坂0001.JPG 453750 1280 960 長いので略 8 BITMAP

img_major_mime img_minor_mime img_description img_user img_user_text
image jpeg {{GFDL}}self made 39111 とんちゃん2

img_timestamp img_sha1
20060220143536 q0bhu20kvdfvlbhob5frnoq0vj58k8y

用途
画像情報を集めるには使うかもしれない。著作権などの問題が解決されないまま掲載されている画像が多いらしいので注意が必要。

jawiki-latest-imagelinks.sql.gz
画像のリンク先情報


概要
pageテーブルのpage_idに紐づくil_fromというカラムと、画像ファイル名が格納されるカラムの2つだけを持つ。

どのページにどういった画像が使用されているかが一望できる。

il_fromil_to
5Commons-logo.svg
10Commons-logo.svg
10Question_book-4.svg
10Sekai-no-gengo.png
10Wiktionary-logo-en.svg

上記の表は、page_idが5のページ(アンパサンド)は、Commons-logo.svgという画像ファイルを使用していて、page_idが10のページ(言語)は上記の4つの画像を使用しています、という意味。

用途
うーん、何かあるだろうか。画像解析にはあまり興味を持ってこなかったし、ページと画像の関連性についても法則性があるわけではないので、特に何も思い浮かばない。

jawiki-latest-interwiki.sql.gz
ウィキ間リンク先情報


概要
日本語のWikipediaから英語に移ろうとした場合に [[en:Language]] などと記述しますが、その「en」の部分とか遷移先のURLとかの情報が記述されています。

iw_prefixiw_urliw_localiw_trans
enhttp://en.wikipedia.org/wiki/$1truefalse

iw_localやiw_transは行える動作権限に影響するようです。詳しい話はここに書いてありました。
http://www.mediawiki.org/wiki/Interwiki_table/ja


用途
662個ほどレコードが設定されているので、へー、こういうサイトがあるのかと見て楽しむような使い道はあるかもしれません。

jawiki-latest-langlinks.sql.gz
各ページの「他の言語」情報


概要
Wikipediaの各ページに貼られている「他の言語」のリンクに関する情報。

例えばヤコブのページは英語、フィンランド語、フランス語、オランダ語、ポーランド語の5つが登録されている。

ll_fromll_langll_title
17170enJacob (disambiguation)
17170fiJaakob
17170frJacques
17170nlJacobus
17170plJakub

用途
見ての通り、その言葉に対する各言語のタイトルが取得できる。これを利用して「ヤコブを英語で書くと、Jacob」といった情報が取得できる。

必ずしも同一の言葉に対してリンクされているわけではないので、参考情報程度にしか使えないかもしれないが、辞書に載っていないような言い換えを取得できる場合もある。

ポケットモンスターの英語ページのタイトルはPokemon(eの上に ' が付く)だとか。

jawiki-latest-page.sql.gz
ページ情報(page_idやタイトル等)


概要
page_idとページのタイトルが入った大切なテーブル。

中身はこんな感じのものが入っています。

page_idpage_namespacepage_titlepage_restrictionspage_counterpage_is_redirect
700人工知能6800

page_is_newpage_randompage_touchedpage_latestpage_len
00.924094703909098200910122012362846087318630

各カラムの意味合いはこんな感じです。

カラム名内容
page_idintページID。categorylinksやexternallinksなどのリンクテーブルと紐づく、結合条件として良く使用されるカラム。
page_namespaceint名前空間。例えば一般的な記事ページは「0(NS_MAIN)」、「削除記録」のような管理系のページは「4(NS_PROJECT)」など。言葉を収集したい場合はとりあえず「0」だけ取っておけば間違いが少なくなる。詳細は「ここ」「ここのReal namespaces」を参照。
page_titlevarchar(255)ページのタイトル。スペースはハイフンに置き換えられている。また「_(曖昧さ回避)」などの言葉が入っている場合もある。
page_restrictionsvarchar(255)編集に関するパーミッション。page_restrictionsテーブルがあるバージョンでは無視されるフィールドらしい。
page_counter bigintページの閲覧回数。この機能が無効になっている場合もあるかもしれないそうな。
page_is_redirectint1の場合はリダイレクトページ。例えばストップ高というページはこのカラムが1で登録されており、値幅制限というページにリダイレクトされる。
page_is_newint1回だけしか編集されていないページは「1」、重ねて編集が行われているページは「0」。
page_randomdouble0~1の間の小数が入っている。「案内」のところにある「おまかせ表示」の為に使用するカラムらしい。
page_touchedvarchar(14)ページが変更された際、キャッシュを無効にする目的で保持するタイムスタンプ。
page_latestint最新の版のID。変更履歴のページで各版のリンク先に「oldid=xxxxx」のようなパラメータが付いてる。そのxxxxxの部分にこのカラムの値が入る。
page_lenint現在のページの長さ


用途
・page_namespaceが0のタイトルを収集し、辞書を生成する
・閲覧回数によって認知度や注目度を測る
・page_is_redirectが1のページの遷移先を見ることで、関連語(類似語)一覧を生成する

jawiki-latest-page_props.sql.gz
ページのプロパティー


概要

現状はHIDDENCAT(記事最下部のカテゴリの欄にカテゴリページへのリンクが現れなくなる)を指定する為に使用されている。
jawiki-latest-page_restrictions.sql.gz
ページの保護情報


概要
pr_userpr_typepr_pagepr_expirypr_cascadepr_idpr_level
edit0infinity020679autoconfirmed
move0infinity020680autoconfirmed
edit1infinity014219sysop
move1infinity014220sysop

こんな感じで、細かく制限しています。あまり言語解析とは関わりがなさそうなので、詳細は割愛。

jawiki-latest-pagelinks.sql.gz
ページ間のリンク情報


概要
4000万件以上のレコードを保持する恐ろしいテーブル。我が家の環境ではCOUNTするだけで1分近くかかる。

例えば「指輪物語」(page_id=4999)で検索すると、以下のような結果が出ます。(206件ほどヒットしてしまったので、下の表はそのうちの一部のみ記載)
pl_frompl_namespacepl_title
49990エピック・ファンタジー
49990エルフ
49990エルフ_(トールキン)
49990エンジェルズ・フォール・ファースト
49990エント

上の表はpl_from(リンクが貼られているページのID)で検索しましたが、pl_titleでLIKE検索をかけることで「エルフ」が含まれるリンクが貼られているページ全てとかも出せます。(実行時間はかなり長くかかりますが)
用途

用語のリンク構造から、各用語同士の関連性がある程度出せるかもしれません。特にお互いに対してリンクが貼っているページ(ホビットと指輪物語とか)については、関連性のある言葉である確率が高いと思われます。

jawiki-latest-pages-articles.xml.bz2
全ページの記事本文を含むXML


概要

4GBを超える巨大ファイル。ロースペックのマシンでは取り扱うのは難しいかもしれません。

XMLの中身はこんな感じで、ページのIDやタイトル、更新者やコメント、そしてテキスト解析をする際に非常に便利なWikipediaの本文(Wiki記法で書かれている)が書いてあります。
ファイルの一部 <page>   <title>生物学</title>   <id>57</id>   <revision>     <id>28350434</id>     <timestamp>2009-10-06T11:34:37Z</timestamp>     <contributor>       <username>CCoil</username>       <id>229918</id>     </contributor>     <comment>[[Special:Contributions/220.148.182.50|220.148.182.50]] ([[User talk:220.148.182.50|会話]]) による ID:28347985 の版を[[H:RV|取り消し]] 英語表記を消すのはおやめください</comment>     <text xml:space="preserve">'''生物学'''(せいぶつがく、{{Lang-en-short|'''Biology'''}})は[[生物]]や[[生命|生命現象]]を研究する[[自然科学]]の一分野。広義には[[医学]]や[[農学]]など[[応用科学]]・[[総合科学]]も含み、狭義には[[基礎科学]]([[理学]])の部分を指す。一般的には後者の意味で用いられることが多い。類義語として'''[[生命科学]]'''や'''生物科学'''がある(後述の[[#「生物学」と「生命科学」]]参照)。       以下略     </text>   </revision> </page>
上記内容は、「Wikipedia: 生物学」の情報を含んでいます
http://ja.wikipedia.org/w/index.php?title=%E7%94%9F%E7%89%A9%E5%AD%A6&oldid=28601045

XMLで配布されている為、扱いが若干面倒です。こんな大容量をXPATHとかで扱うのも自殺行為ですし、ダンプファイルに変換するツールも用意されていますが、実行してから結果が返ってくるまで時間がかかったりします。

というわけで我が家では自前でパーサを書いて、page_id, page_title, rev_id、textだけをカラムに持つ独自テーブルに入れて使っています。

ちなみに変換するツールを使用した場合はpage, revision, textの3つのテーブルのデータが生成されます。使用方法は下記URLが詳しいです。

wikipediaのダウンロード&データベースにインポート
http://d.hatena.ne.jp/dkfj/20070902/1188730207


用途

コーパス作成のお供に。関連後抽出に。リンク抽出に。未知語の探索に。

割と正しい日本語で大容量の書かれたテキストを、ご随意にご使用ください。

jawiki-latest-pages-logging.xml.gz
Wikipediaのページに対する操作ログ


概要

何時にファイルをアップデートしたとか、記述を削除したといったアクション情報が載っています。
ファイルの一部 <logitem> <id>5</id> <timestamp>2004-12-23T05:33:34Z</timestamp> <contributor> <username>Nnh</username> <id>474</id> </contributor> <comment>著作権侵害。削除依頼12月15日。</comment> <type>delete</type> <action>delete</action> <logtitle>花園大学</logtitle> <params xml:space="preserve" /> </logitem> <logitem> <id>6</id> <timestamp>2004-12-23T06:20:42Z</timestamp> <contributor> <username>Kozo</username> <id>15492</id> </contributor> <comment>ウィリアム3世 (イングランド王) (英語版より)</comment> <type>upload</type> <action>upload</action> <logtitle>ファイル:William III of England.jpg</logtitle> <params xml:space="preserve" /> </logitem>

アクションの内容は、create, create2, autocreate, delete, upload, block, unblock, reblock, restore, protect, move, move_redir, rights, renameuser, newusers, modify, overwrite, patrol, move_prot, revision、などがある。

jawiki-latest-pages-meta-current.xml.bz2
pages-articles.xmlと同じ構成・内容のXML(議論ページなども含む)


概要
ファイルの一部 <page> <title>ヨーロッパ</title> <id>32</id> <revision> <id>28222233</id> <timestamp>2009-09-28T23:05:55Z</timestamp> <contributor> <username>SieBot</username> <id>126695</id> </contributor> <minor /> <comment>ロボットによる 変更: [[nv:Beesh Bichシahnii Bikeyah]]</comment> <text xml:space="preserve">{{otheruses|ヨーロッパ}} [[ファイル:Europe (orthographic projection).svg|thumb|250px|ヨーロッパの位置]] [[ファイル:Europe satellite orthographic.jpg|thumb|250px|ヨーロッパの衛星写真]] [[Image:Europe_subregion_map_UN_geoschme.svg|right|thumb|250px|国際連合によるヨーロッパの地域の分類[http://unstats.un.org/unsd/methods/m49/m49regin.htm] {{legend|#4080FF|[[北ヨーロッパ]]}} {{legend|#00FFFF|[[西ヨーロッパ]]}} {{legend|#FF8080|[[東ヨーロッパ]]}} {{legend|#00FF00|[[南ヨーロッパ]]}}]] 以下略 </text> </revision> </page>
上記内容は、「Wikipedia: ヨーロッパ」の情報を含んでいます
http://ja.wikipedia.org/w/index.php?title=%E3%83%A8%E3%83%BC%E3%83%AD%E3%83%83%E3%83%91&oldid=28690630

見ての通り、内容自体はpages-articles.xmlと同じです。但し、議論ページなどを含む分、レコード数は若干多くなっています。


用途

これとpages-articles.xmlとどちらを使うかは、用途によって分かれると思います。ファイルサイズはこちらの方が1GB、レコード数も40万ほど多いので、マシンスペックやHDDの容量に余裕がない場合は、pages-articles.xmlを使用しておけば良いと思います。

jawiki-latest-protected_titles.sql.gz
編集制限されたページと、その制限事由の一覧


概要

編集制限をされたページの、時間、期限、制限事由などが登録されている。

pt_namespacept_titlept_userpt_reason
0(株)54812削除された項目の改善なき再作成が続くため

pt_timestamppt_expirypt_create_perm
20080913045836infinitysysop


用途

削除されたタイトルとかを取ることもできなくはないけど、明らかな悪戯で作られた記事のタイトルも取れてしまうので品質の面で微妙です。

あとはこのテーブルを見ていると、管理している人もタイヘンだなぁと無駄に同情的な気持ちになったりするかもしれません。

jawiki-latest-redirect.sql.gz
リダイレクト先一覧


概要

例えば「.NET_Framework」というページは、
・.NET
・.NET_Framework_3.0
・WinFX
・Framework_3.0
・Microsoft_Windows_.NET_Framework_3.0
・Windows_.NET_Framework_3.0
・Microsoft_.NET
・Microsoft_.Net
以上、8つのワードのリダイレクト先として登録されています。

rd_fromrd_namespacerd_title
15630.NET_Framework
5770390.NET_Framework
6399060.NET_Framework
6399070.NET_Framework
6399080.NET_Framework
6399090.NET_Framework
6464550.NET_Framework
6464560.NET_Framework


用途

言い換えや表記の違い、略称、関連語などが登録されているので、頑張ればその辺りの情報を取れるかもしれません。

但し、頑張って様々な言い換えをリダイレクト登録しているページもあれば、あまり登録されていないページもあるので(レコード数も40万くらいですし)、学習をする際の参考データの1つくらいの扱いになると思います。

jawiki-latest-site_stats.sql.gz
ページ数や閲覧総数などの情報


概要

詳細は調べてませんが、中身は1レコードのみで、こんな情報が入ってました。

ss_row_idss_total_viewsss_total_editsss_good_articles
1234098229093839624796

ss_total_pagesss_usersss_adminsss_imagesss_active_users
1615010355590307063811472


用途

他の言語の情報を取得する際に、ss_total_pages辺りを見ておけば、読み込む為の処理時間を想定する際のヒントになるかも。

jawiki-latest-stub-articles.xml.gz
pages-articles.xmlの本文を除いた版


概要

pages-articles.xmlの本文(text)の部分が、textのIDだけを書く様になっているファイルです。

ファイルの一部 <page> <title>哲学</title> <id>110</id> <revision> <id>28432395</id> <timestamp>2009-10-11T11:11:19Z</timestamp> <contributor> <ip>202.95.44.163</ip> </contributor> <comment>/* 外部リンク */ [[Wikipedia:外部リンクの選び方]]参照</comment> <text id="28286198" /> </revision> </page>


用途

リビジョンの情報だけを取りたい場合は、たぶんこれを使うんだと思います。

jawiki-latest-stub-meta-current.xml.gz
pages-meta-current.xmlの本文を除いた版


概要

stub-articles.xmlと同じ形式です。pages-meta-current.xmlと同じく、議論ページなどを含んでいます。

jawiki-latest-stub-meta-history.xml.gz
pages-meta-history.xmlの本文を除いた版


概要

stub-articles.xmlと同じ形式で、revisionの情報がcurrentだけでなく全て入っています。7.4Gとかいう困ったサイズをしています。

jawiki-latest-pages-meta-history.xmlを扱うほどの容量はないけど、revisionの中身を見てみたい場合などは、これを使うのだと思います。

jawiki-latest-templatelinks.sql.gz
使用しているテンプレートの情報


概要

下記は174722(クリーブランド・キャバリアーズ)のテンプレート情報の一部です。NBAやPlayer、Country_flagのテンプレートが使用されていることが分かります。

tl_fromtl_namespacetl_title
174722BasketColor10
174722BasketColorCell10
174722BasketColorCell210
174722Country_alias_BRA10
174722Country_alias_LTU10
174722Country_alias_USA10
174722Country_flag_alias_BRA10
174722Country_flag_alias_LTU10
174722Country_flag_alias_USA10
174722NBA10
174722NBA_SBS10
174722NBAteam10
174722NBAロースター_終了10
174722NBAロースター_選手10
174722NBAロースター_開始10
174722NBA年度別成績10
174722Player10
174722Redirect10


用途

テンプレートの情報なんて使えないよなぁと思いながら中身を見ていたのですが、野球用のテンプレートとかバスケ用のテンプレートとかがあるので、意外とカテゴリ分けする際の一要素として使えるかもしれないなぁと思いました。

jawiki-latest-user_groups.sql.gz
ユーザグループ情報


概要

ug_group(botとかsysopとか)と、ug_user(IDっぽい数字)が入ったテーブル。

戻る    ご意見、ご要望