データ品質・クレンジング方針

Queriaは、公開されたオープンデータをそのまま並べるのではなく、分析しやすい形に整えてから配信しています。このページでは、その前処理の方針を説明します。

なぜ前処理が必要か

オープンデータは公開された時点では、文字コードや列名、単位の揃え方がバラバラです。同じ「市区町村コード」でも桁数や型が違ったり、数値のはずの列に注釈の文字が混ざっていたりします。こうしたばらつきは、データセット同士を繋いで使おうとしたときに大きな障害になります。

Queriaはこの「下ごしらえ」を一度きちんと行い、利用者が毎回同じ前処理を書かなくて済むようにしています。

これらはすべて dbt パイプラインで宣言的に記述されており、各テーブルの変換ロジックはテーブル詳細ページの「ソースコード」リンクから確認できます。

前処理はあくまで「使える形に整える」ためのものであり、元データの数値そのものを書き換えることはしません。クレンジングの内容を透明にするため、変換ロジックはすべて公開しています。元データの正確性については、各テーブルのデータソースに記載された一次情報を参照してください。