生成AI用データ項目定義書の試験公開について
「誰でも簡単にオープンデータを活用できる状態」を目指す取組の一環として、生成AI等でデータ分析を行いやすくする為のデータ項目定義書”LM用データ項目定義書”を試験的に公開しています。
<LM用データ項目定義書について>
分析を前提としたデータ等については、これまでは関連する専門的知識が無ければ活用は難しかったのですが、近年の生成AIの普及により、専門的知識等を持たずとも手軽にデータを分析できる環境が整ってきました。
しかしながら、専門的なデータについては、生成AIであっても初見で正しく理解し、的確な分析を行うことは未だ難しい状態です。それを実現するにはRAG(※1)やファインチューニング(※2)等を実施する必要があり、コストを要します。
そこで大分県では、専門的なデータであってもRAGやファインチューニングに頼らずに、対象とするデータに関する知識を事前に獲得した状態でデータ分析を行えるようにするアプローチを研究しています。
今回の取組は、対象とするデータ毎にその構造、意味、特徴等をテキストでパッケージ化し、それをデータ項目定義書と捉え、事前に生成AIに与えることにより、そのAIにとって初めて分析するデータであっても正しく処理できるようにするというものです。
<データの公開場所>
以下のデータセット内で公開しています。
大分県河川水位観測データ
https://data.bodik.jp/dataset/440001_river_wl
<使用方法>
お使いの生成AIサービスにおいて、目的のデータを読み込ませる前に、LM用データ項目定義書を読み込ませる(又は独自のカスタマイズAIサービスに組み込んでおく)事により、データの解析がスムーズになり、正確性が向上する(※3)可能性があります。
(※1)RAG・・・Retrieval-Augmented Generation、検索拡張生成。AIが回答を生成する際に特定のデータベース等を参照させ、回答の精度を上げようとする手法。
(※2)ファインチューニング・・・学習済みのモデルに追加の知識を学習させ、特定の分野に特化した新たなモデルを作成する手法。
(※3)【ご注意】LM用データ項目定義書は試験的に公開しているものであり、必ずしも正確な解析結果を返せるようになるとは限りません。また、生成AIには潜在的にハルシネーション等の問題があるため、生成AIが返した解析結果等は、使用者が十分に確認し、使用者の責任においてご使用ください。
※LM用データ項目定義書に関するご意見等がございましたら、下記のお問い合わせフォームからお願いいたします。(必ずしもご意見等にお答えできるとは限りません。ご了承ください。)