1
/
5

XAIを使いこなすための特徴量エンジニアリング その1

著者:佐藤能臣、Roberto Iaconi、小川祐樹

はじめに

本稿では、ここ数年データサイエンティストの中でよく使われるXAI(eXplainable AIの略で、しばしば、解釈可能なAIや説明可能なAIと呼ばれる)[1]を取り扱うにあたって、データサイエンティストが気をつけなければいけない特徴量エンジニアリングをシリーズ化して紹介する。

その第1回目として、XAI技術に求められる3つの条件(公平性説明責任透明性)やプライバシーマネジメントシステム(PMS)構築を含め、どのようにすればデータ中に潜むバイアスを取り除くことができるのかを紹介し、データサイエンティストとして、実際に、バイアスの臭いを嗅ぎ分けられるぐらいにデータと向き合い、データ中にバイアスが潜んでいるかどうかを判断できる力の必要性を伝えていく[2]。

AI(人工知能の英訳 Artificial Intelligenceの略語)・データサイエンス市場は、今後エクスポネンシャル的に加速して成長することが予想されている。「AI×コンサルティング」を掲げ、飛躍的な成長を目指す企業・アポロ株式会社のテックブログを執筆するにあたり、これから求められるデータサイエンティスト人材が何か、どういったスキルが要求されるかを、現場の実際の業務の経験を交えながら、シリーズ化して定期的に発信する予定である。

その初回として、データサイエンスパイプライン[3][4]や機械学習パイプライン[5]における、データサイエンティストでもかなり誤解の多い特徴量エンジニアリングの観点から、ここ数年流行りとなっているXAIが何かを紹介する。

XAIとは~求められる3つの条件

AI技術の発展により、私たちは、以前に比べて、身近な商品やサービスでAIに触れる機会が増えてきており、今後、ますます、XAIが求められてくる。
このXAIとは何か?XAIとは、ここ数年データサイエンスやAIエンジニアリングの分野で話題の1つで、開発したAIの予測結果を説明する技術である。データサイエンスプロジェクトにおいて、クライアントに寄り添い、クライアントが抱える課題を解決するためにも、クライアントに「なぜ開発したAIが予測できるか」を説明することは、非常に重要である。

データサイエンスプロジェクトでは、開発したAIの予測結果の根拠を説明することでクライアントは運用時に安心してAIを利用できるようになる。その条件として「公平性」「説明責任」「透明性」の3つがある[1]:

  • 公平性:属性の違いによらず、公平なAIサービスを受けられるように、不公平を生じるバイアスを排除すること。公平性を高めるために、様々な視点からデータとAIを検証する必要がある。
  • 説明責任:未知の入力に対して、AIが正しい推定をする保証はなく、誤った推定をする可能性がある。AIが誤って推定した場合、その原因がどこにあり、その責任は誰/何にあるのかを明確にすること。
  • 透明性:クライアントが理解できる形で、AIの情報を提示すること。

データサイエンス/AIエンジニアにおいて、「ブラックボックス」である予測モデルの内部構造をホワイトボックス化することは、クライアントが本当に知りたいインサイトを与え、安心して意思決定を促せることもあり、非常に大切な課題である。
上記の3つの指標を整理してクライアントに説明することで、クライアントは、不安なく、予測モデルを業務で運用したり、AIサービスを受けることができるようになる。

XAIでもそうだが、機械学習を勉強し始めて犯しやすいミスの1つに、既知の入力データを使って予測モデルを学習して、モデルの性能を評価してしまうことがあげられる。
機械学習で使われるアルゴリズムの多くは、予測モデルの実運用時に説明する状況を想定し未知の入力データを用いる必要があるので、もし既知の入力データを用いて、XAIの出力結果を説明する際には「なぜ既知の入力データを用いたか」の理由が必要である。また、「Interpretable Machine Learning」[6][7]では、XAIの技術の1つで、「Permutation Feature Importance」と呼ばれる、既知の入力データと真の結果との関係性を壊すことで、既知の入力データが予測に与える影響度を評価する手法も提案されている。この手法の欠点の1つとして「既知の入力データを使うべきか、未知のデータを使うべきか不明」としており、XAIを用いる際の入力データの取扱いには、議論の余地を多いに残す。

このように、モデルの予測結果の根拠を説明するための上述した3つの指標を向上させるには、入力データにさまざまなバイアスが含まれている可能性があることを把握する必要がある。「XAI(説明可能なAI)~そのとき人工知能はどう考えたのか?」[1]では、「歴史的バイアス」や「サンプリングバイアス」を挙げているし、[3][8]では、著者独自の解釈のバイアスを含めさまざまなミストゥルース(データにまつわる誤解)を紹介している。これは、データサイエンティストとして、クライアントから頂くデータの取扱いには、細心の注意を払う必要があることを伝えようとしていると考えられる。

データ中のバイアスを取り除く

これまでにデータに潜み得るさまざまなバイアスを紹介したが、特に注意を払う必要のあるバイアスの1つが「歴史的バイアス」である。「XAI(説明可能なAI)~そのとき人工知能はどう考えたのか?」[1]では、歴史的バイアスを歴史的社会通念に基づくバイアスとしている。歴史的社会通念とは、簡単に言うと、個々のデータサイエンティストがもつ常識や思い込みである。データサイエンティストの常識や思い込みが「サンプリングバイアス」などの他のバイアスを誘発する可能性があるからだ。サンプリングバイアスの場合、常識や思い込みにより偏ったデータを収集したことで、属性の異なる利用者間で有意に異なる推論結果を導くAI開発に繋がってしまう。その失敗事例の1つが2018年のアマゾンの採用AIの打ち切りである[9]。

データサイエンティストが個人情報保護法の取扱いにも精通しているかでも、データの取扱い方も変わるので、個人情報保護法の取扱いが「サンプリングバイアス」「歴史的バイアス」に影響する事例の1つとなるのではないだろうか。個人情報を守る意識が高まる以前のデータの取扱いと、その意識が高まった現在のデータの取扱いとでは、その繊細さは全く異なるからである。これはどういうことだろうか?クライアントから頂くデータは、基本的には分析できる状態ではなく、分析したり、AIを開発するためにデータをある程度加工する必要がある。これは「石油」のまま使って車のエンジンを動かすことができず「ガソリン」に精製して初めて動かすことができることと同じである。つまり、第3者の利用可能性まできちんと考慮に入れ匿名加工[10]を施すことで洗練されたデータとそうでないデータとでは、探索的データ分析におけるシンプルな要約統計量の算出でその違いが明らかなのは、筆者たちも経験している。

では、なぜそのような違いが出てきたのか考えてみよう。答えの1つとして考えられるのは、個人情報の保護を図るためのマネジメントシステム(これを個人情報保護マネジメントシステム(通称PMS)と呼ぶ[11])が確立されていたかどうかである。個人情報保護法を遵守し第3者に提供可能なレベルまで加工してしまったら分析などできやしない。しかし、個人情報の保護を図ることを目的として、個人情報を守るためのリスクを分析し、その分析結果に基づいて対応計画を策定し、具体化したPMSが厳重に構築されていれば、個人情報漏洩のリスクの低い分析可能なデータが提供される。このような厳重に整備されたデータには外れ値などの分析に支障をきたすバイアスも取り除かれ、逆に、整備されていないデータには支障をきたすバイアスが取り除かれていな可能性がある。

まとめ

本稿では、XAI技術に求められる3つの指標やPMS構築を含め、特徴量エンジニアリングの1つとして、どのようにすればデータ中に潜むバイアスを取り除くことができるのかを紹介した。このことから、データサイエンティストとして、バイアスの臭いを嗅ぎ分けられるぐらいにデータと向き合い、データ中にバイアスが潜んでいるかどうかを判断できる力の必要性を示した。

余談になるが、私たちは、時代の流れに合わせて「データ」の定義を常に見直す意識を持つ必要がある。今は、データは数字だけではない。調査して得られた情報、目に映る映像を含め、私たち個人が五感で得た情報も感情もデータとなる[12]。これは、常に「データ」の定義を再確認しなければ、偏ったデータを収集してしまい、これが原因で誤った出力をするAIを開発してしまう恐れがあることを私たちに教えていると筆者たちは考える。常に「データには何かしらのバイアスが潜んでいる」ことを意識することで、共創する力が生まれ、XAIを正しく使いこなすことができるようになるだろう。

引用文献

  1. 大坪直樹、中江俊博、深沢祐太、豊岡祥、坂元哲平、佐藤誠、五十嵐健太、市原大暉、堀内新吾(共著)「XAI(説明可能なAI)~そのとき人工知能はどう考えたのか?」(リックテレコム 2021年7月31日)
  2. Steven S. Skiena(著)小野陽子(監訳)長尾高弘(訳)「データサイエンス設計マニュアル」(株式会社オライリー・ジャパン 2020年1月24日)
  3. J. P. Mueller、L. Massaron「Python for Data Science for dummies, 2nd Edition」(John Wiley & Sons, Inc. 2019)
  4. 佐藤能臣、坂本唯史、市原泰介「医療レセプトデータから「インサイト」を生み出すデータサイエンスパイプライン」(D4c AI Lab 投稿日2022年08月24日)
  5. 「機械学習のパイプライン処理とは?概要やメリットをわかりやすく解説」(Tryeting)
  6. Christoph Molnar「Interpretable Machine Learning ~A Guide for Making Black Box Models Explainable」(Lulu.com、February 24 2019)(原著)
  7. Christoph Molnar「Interpretable Machine Learning ~A Guide for Making Black Box Models Explainable」(翻訳)
  8. J. P. Mueller、L. Massaron「Artificial Intelligence for dummies」(John Wiley & Sons, Inc. 2021)
  9. Jeffrey Dastin「焦点:アマゾンがAI採用打ち切り、『女性差別』の欠陥露呈で」(ロイター 2018年10月11日)
  10. 北川源四郎、竹村彰通(編)内田誠一、川崎能典、孝忠大輔、佐久間淳、椎名洋、中川裕志、樋口知之、丸山宏(著)「教養としてのデータサイエンス」(講談社 2021年6月15日)
  11. 一般財団法人日本情報経済社会推進協会、プライバシーマーク推進センター(編)「個人情報保護マネジメントシステム導入・実践ガイドブック」(日本規格協会 2019年4月26日第3刷発行)
  12. 下山輝昌、川又良夫、佐藤百子「データ分析プロジェクト~実践トレーニング」(秀和システム 2022年7月22日)

最後まで読んでいただき、ありがとうございます。

アポロならではの技術的課題に対する取り組みやプロダクト開発の試行錯誤で得た学びなどを定期的に発信していきます。少しでも業界へ貢献できれば嬉しいです。

今後ともよろしくお願いいたします。

アポロ株式会社からお誘い
この話題に共感したら、メンバーと話してみませんか?
アポロ株式会社では一緒に働く仲間を募集しています

同じタグの記事

今週のランキング

佐藤 能臣さんにいいねを伝えよう
佐藤 能臣さんや会社があなたに興味を持つかも