データ品質・クレンジング方針
Queriaは、公開されたオープンデータをそのまま並べるのではなく、分析しやすい形に整えてから配信しています。このページでは、その前処理の方針を説明します。
なぜ前処理が必要か
オープンデータは公開された時点では、文字コードや列名、単位の揃え方がバラバラです。同じ「市区町村コード」でも桁数や型が違ったり、数値のはずの列に注釈の文字が混ざっていたりします。こうしたばらつきは、データセット同士を繋いで使おうとしたときに大きな障害になります。
Queriaはこの「下ごしらえ」を一度きちんと行い、利用者が毎回同じ前処理を書かなくて済むようにしています。
Queriaが施す前処理
- フォーマットの統一: 文字コードやファイル形式を揃え、Parquetとして配信する
- 列名・型の正規化: 列名の表記を整え、数値・日付などの型を適切に変換する
- 値のクレンジング: 数値列に混在する日本語の注釈や単位を取り除き、欠損や不整合を吸収する
- キーの整備: データセット同士を
JOINで繋げられるよう、コード体系を揃える - メタデータの付与: テーブルやカラムの意味・単位・集計方法を記述として添える
これらはすべて dbt パイプラインで宣言的に記述されており、各テーブルの変換ロジックはテーブル詳細ページの「ソースコード」リンクから確認できます。
元データへの姿勢
前処理はあくまで「使える形に整える」ためのものであり、元データの数値そのものを書き換えることはしません。クレンジングの内容を透明にするため、変換ロジックはすべて公開しています。元データの正確性については、各テーブルのデータソースに記載された一次情報を参照してください。
次のステップ
- 出典・ライセンス表記: データを使うときの条件
- 仕組み: dbtパイプラインからR2配信までの流れ
- コンセプト: 下ごしらえを引き受けるという考え方