データ品質・クレンジング方針

Queriaは、公開されたオープンデータをそのまま並べるのではなく、分析しやすい形に整えてから配信しています。このページでは、その前処理の方針を説明します。

なぜ前処理が必要か

オープンデータは公開された時点では、文字コードや列名、単位の揃え方がバラバラです。同じ「市区町村コード」でも桁数や型が違ったり、数値のはずの列に注釈の文字が混ざっていたりします。こうしたばらつきは、データセット同士を繋いで使おうとしたときに大きな障害になります。

Queriaはこの「下ごしらえ」を一度きちんと行い、利用者が毎回同じ前処理を書かなくて済むようにしています。

Queriaが施す前処理

  • フォーマットの統一: 文字コードやファイル形式を揃え、Parquetとして配信する
  • 列名・型の正規化: 列名の表記を整え、数値・日付などの型を適切に変換する
  • 値のクレンジング: 数値列に混在する日本語の注釈や単位を取り除き、欠損や不整合を吸収する
  • キーの整備: データセット同士を JOIN で繋げられるよう、コード体系を揃える
  • メタデータの付与: テーブルやカラムの意味・単位・集計方法を記述として添える

これらはすべて dbt パイプラインで宣言的に記述されており、各テーブルの変換ロジックはテーブル詳細ページの「ソースコード」リンクから確認できます。

元データへの姿勢

前処理はあくまで「使える形に整える」ためのものであり、元データの数値そのものを書き換えることはしません。クレンジングの内容を透明にするため、変換ロジックはすべて公開しています。元データの正確性については、各テーブルのデータソースに記載された一次情報を参照してください。

次のステップ