Queria について

ブラウザだけでオープンデータを探索・分析できるデータカタログ

Queria とは

Queria は、オープンデータをブラウザから SQL で探索・分析できるデータカタログです。 ブラウザを開けばすぐに SQL を書いてクエリが実行できます。 まずは日本のオープンデータから収録を始めていて、将来的には国を問わず扱えるカタログにしたいと思っています。

主な機能や使い方はガイドにまとめています。

なぜ作っているのか

データにもっと気軽に触れられる世界を作りたい。 それが Queria の根っこにある気持ちです。

データに触れる機会が増えると、世の中のことをちょっと深く知るきっかけになります。 「意外とこうなっているんだな」と気づいたり、 なんとなく聞いていたニュースの背景が数字で腑に落ちたり。 そういう小さな気づきが積み重なれば、世界を正しく理解する材料になっていく。 データを活用することでいろんな人のそんな瞬間が増えたらいいな、と思っています。

とはいえ、これまでデータ分析は一部の人のものでした。 サーバーを立てて、大きなストレージを用意して、SQL を覚えて、統計や可視化の方法を勉強する。 お金もスキルも時間もかかる。だからどうしても限られた人の営みになってしまっていました。

ここ数年で、その前提が大きく変わりました。

  • Frozen DuckLake によって、データのホスティングコストが劇的に下がりました
  • DuckDBDuckDB WASM によって、分析に必要な計算がブラウザの中で完結するようになりました
  • LLM の登場で、SQL や統計の知識がなくても自然言語でデータに問いかけられるようになりつつあります

今まで分析を阻んでいた壁が、次々と消えていっています。 「誰でも気軽にデータを触れる世界」は、技術的にはもう手が届くところまで来ているんです。

一方で、オープンデータ自体にはまだ別の課題があります。 公開されているデータは形式がバラバラで、文字コードや列名、単位の揃え方も統一されていません。 使おうとするとまず前処理で時間を溶かすことになるし、 同じ前処理をあちこちの人がそれぞれの手元で書いている。 世界中で同じ車輪を再発明しているのはもったいないし、 そもそも「ダウンロードして前処理する」というステップ自体が、 せっかく気軽に触れられるはずのデータを遠ざけてしまっています。

この問題は、AI が分析を手伝ってくれる時代になるとむしろ深刻になります。 LLM にデータを渡せば何でも賢く答えてくれる、というほど話は単純ではありません。 データがバラバラで意味が曖昧だと、AI は見当違いな答えを返したり、 嘘 (ハルシネーション) をついたりします。 AI が的確に答えるためにも、その答えを人が確かめるためにも、 「データの下ごしらえ」と「意味の記述」がこれまで以上に大事になってきています。 派手な技術の陰で、地味な整理こそが効いてくる時代です。

Queria でやりたいのは、その下ごしらえを一手に引き受けること。 きれいに整えたデータを、意味をちゃんと添えて、誰もが同じ形でアクセスできる場所に置く。 それだけで「公開されているオープンデータ」が 「本当に使えるオープンデータ」に変わると信じています。

大切にしていること

使える形に整えて提供する

オープンデータは公開された時点ではバラバラです。 フォーマットを揃え、列名や単位を統一し、欠損や不整合を吸収し、 データセット同士をキーで繋げられるようにする。 さらに、テーブルやカラムの意味・単位・集計方法といったメタデータもセットで用意する。 この一連の「下ごしらえ」を利用者が繰り返し書かなくて済むようにすることが、私たちの仕事です。

きれいに整ったデータは、人が分析するときの出発点になるだけでなく、 AI に渡したときの答えの精度にも直接効いてきます。 メタデータがきちんと揃っていれば、AI の解釈はより的確になり、 見当違いな答えや嘘 (ハルシネーション) も出にくくなります。 Claude Code で分析するガイドでは、その手応えを実際に紹介しています。

AI の答えを人が確かめられるように

Queria はデータへのアクセスを SQL でできる形を基本にしています。 これは、AI に分析を任せたときに、その答えの根拠を人が自分の目で追えるようにするためです。

データを API 越しに叩いて結果だけを返すような仕組みだと、 「なぜその数字になったのか」を追うのが難しい。内部で何をしているかはブラックボックスで、 AI が返した答えを信じるか信じないかの判断材料がありません。 一方、SQL なら WHERE 句や JOIN、集計のロジックをそのまま読んで 妥当かどうか判断できます。AI が書いた SQL を読んで、 「ああ、確かにこの条件で集計しているのね」と納得してから答えを受け取れる。

AI の答えをそのまま鵜呑みにするのではなく、自分の目で確かめられる状態を大事にしたい。 それが、データ基盤として SQL を一貫して選んでいる理由です。

好きなツールから使える

データ分析には人それぞれ得意な道具があります。 ブラウザで SQL を叩く人もいれば、Python や Jupyter で書く人、 Tableau や Power BI でダッシュボードを組み立てる人もいます。 Queria のデータは DuckLake カタログとして公開しているので、 DuckDB に接続できる環境からならどこからでも直接参照できます。 「使う道具」をこちらが決めることはしません。 詳しくは接続方法のガイドをご覧ください。

誰にでも開かれた状態を守る

オープンデータは、オープンにアクセスできてこそ意味があります。 Queria は個人が気軽に使える入口を無料で用意し、ソースコードも公開しています。 データ分析はエンジニアやデータサイエンティストの専売特許ではなく、 自治体の政策担当者、店舗開発者、研究者、記者 — さまざまな立場の人が 自分の関心に沿ってデータを眺められることが大事だと思っています。

継続的にデータを整備し続けるための仕組みは別途整えますが、 誰もがデータへ直接たどり着ける状態は守り続けます。

オープンデータを公開している方へ

自治体・政府・公共機関・企業など、オープンデータを公開する立場の方にもお伝えしたいことがあります。

CKAN のような既存のカタログ基盤は、 データを探しやすくする入口として大きな役割を果たしてきました。 一方で、個別の CSV や Excel を並べる方式だと、 データセット同士を繋いで使う部分は利用者の手元での前処理に委ねられることになります。 公開されているのに、使うたびにダウンロードと整形を繰り返す、という状況がなかなか変わりません。

Queria で採用している DuckLake カタログ形式なら、 公開元が一度整理して置くだけで、利用者はブラウザでも Python でも BI ツールでも、 データを SQL で直接引けるようになります。 データセットを横断したクエリも同じ SQL の中で書けるので、 使う側がフォーマット変換を挟まずにそのまま活用できる状態を、公開元の側から作れます。

今は Queria が外部のオープンデータを集めて整理していますが、 本来はデータの公開元から、整った形で出てくるのが一番きれいな姿だと思っています。 公開方法を見直そうと考えている組織があれば、 データ整理や公開パイプラインの設計・整備について、一緒に考えるお手伝いもできます。

もし Queria が気になったら、お問い合わせフォームから気軽にお声がけください。 一緒にオープンデータの次の形を作っていけたら嬉しいです。