Daily programming #0030
言語処理100本ノック 2015の#28をやっていく。
第3章: 正規表現の前提
Wikipediaの記事を以下のフォーマットで書き出したファイルjawiki-country.json.gzがある.
1行に1記事の情報がJSON形式で格納される 各行には記事名が"title"キーに,記事本文が"text"キーの辞書オブジェクトに格納され,そのオブジェクトがJSON形式で書き出される ファイル全体はgzipで圧縮される 以下の処理を行うプログラムを作成せよ.
JSONファイルの容量が大きく、glot.ioで実行する際に非常に時間がかかるため、「イギリス」に関する記事のみのJSONファイルを使用する。
28. MediaWikiマークアップの除去[Golang]
Question
27の処理に加えて,テンプレートの値からMediaWikiマークアップを可能な限り除去し,国の基本情報を整形せよ.
Code
27の処理に加えてマークアップ早見表から以下を正規表現で除去した。
- 外部リンク
- コメントアウト