【エンジニア向け】医療データの種別を超解説 Vol.1 〜保険者データ編〜

JMDC開発本部データ基盤開発部の杉山です。
医療ビッグデータ事業を展開するJMDCでは、様々な医療データを取り扱い、価値創出へとつなげています。医療データと言っても、その種類や役割は実に幅広く、多岐にわたっています。

私たちは、どんな医療データを扱っているのか。今回は、その中でもJMDCのデータ事業の代名詞とも言える保険者データ（レセプトデータ等）に焦点を当てて、分かりやすく解説していきたいと思います。

プロフィール
杉山岳史（すぎやまたけふみ）
株式会社JMDC 開発本部データ基盤開発部保険者基盤グループマネージャー
新卒で入社した情報システム会社でSI事業を一通り経験。2018年8月、JMDCに転職しデータ基盤開発部に配属後、レセプト取り込みシステムを担当。現在は保険者基盤グループのマネージャーとして、保険者データ基盤の構築・管理を担当。

事業の原点は、紙レセプトを集めてデータ化すること

まずは、JMDCが取り扱っている医療データにはどんな種類があるのか、全体像を見ていきます。受領元でカテゴライズすると、以下の4つに大別されます。

１．健康保険組合から受領するデータ（保険者データ）
　1－①：レセプトデータ
　1－②：健康診断データ
　1－③：適用台帳

２．医療機関から受領するデータ
　2－①：DPCデータ
　2－②：検査値データ

３．自治体から受領するデータ
　国民健康保険、協会けんぽのレセプトデータ

４．PHRデータ（個人の健康データ）

今回は、上記のうちJMDCが保有するデータ量として最大の規模である健康保険組合から受領するデータ（保険者データ）にフォーカスして解説します。

健康保険組合との取引が年々発展

保険者には、国民健康保険、健康保険組合、協会けんぽ、共済組合といった種類があり、皆さんいずれかの保険に加入されているかと思います。こうした保険者の中でもJMDCは、健康保険組合との取引をメインに展開しています。

JMDCの事業のひとつに、保険者支援サービスがあります。健康保険組合は、被保険者の健康を増進する保健事業というものを推進しており、我々はその保健事業を支えるための分析ツールやコンサルティングなどを提供しています。

こうしたサービスの大元となっているのが、保険組合が保有する各データ（医療機関からのレセプト等）で、私たちはそのデータをお預かりしデータベース化してサービス価値を生み出しています。

健康保険組合との取引は、年々増加。それに応じて、取り扱うデータ量も増えています。

そもそも、なぜJMDCが保険者データを扱うようになったのか。これは2002年の創業まで遡ります。当時、製薬会社に勤務していた創業者の木村は、実際の医療現場で患者にどんな薬がどのように使われているのかがデータで把握できれば、社会的なバリューにつながると考えました。

そこで可能性を見出したのが、診療報酬請求で使うレセプト（当時はデータではなく紙）でした。木村は健康保険組合に飛び込み、データベースの価値を伝え、紙レセプトを提供してくれる組合を少しずつ増やしていったのです。当時からの地道な蓄積が、現在の巨大データベースへとつながっています。

国内最大規模の累計1300万人のレセプトデータ

次にJMDCが保有する保険者データの種類について詳しく見ていきましょう。保険者データは、次の3つに大別されます。

【１】レセプトデータ
レセプトデータとは、医療機関（病院、歯科、調剤薬局等）が保険者負担分の診療報酬を請求する際に送るデータを指します。診療報酬明細書とも呼ばれ、JMDCでは主に病院からの「医科レセプト」と保険薬局からの「調剤レセプト」の2種類を扱っています。

レセプトには、傷病名や医療行為が項目ごとに記載されていて、各項目の診療報酬点数が入力されています。病院に行ったときにもらう領収書や明細書を見たことがある方は多いと思いますが、このうち明細書の内容が所定のルールをもとにレセプトデータとしてまとめられています。

【２】健康診断データ
健康診断データ（以下、健診データ）は、被保険者が健診機関で受けた健康診断のデータです。身長・体重はもちろんのこと、血液検査、X線検査の数値、医師の所見などが含まれます。JMDCでは、主に40歳以上が受ける人間ドックや1日健診のデータを保有しています。そこには特定健康診査、いわゆるメタボ健診も含まれています。

【３】適用台帳データ
適用台帳データは、保険組合で管理する被保険者証記号・番号に紐づく個人情報のデータです。皆さんが持っている保険証に記載されている情報となります。

これらの保険者データを膨大に蓄積・運用しているのが、JMDCの優位性となっています。例えば、レセプトデータは国内最大級規模の累計母集団1,300万人を保有。これは全国の約10％に当たる数字で、件数だと6億5,000万件を超えています。

また、大規模レセプトデータに紐づく各情報も膨大な量を管理しています。
代表的なデータ項目（カラム）に「傷病」「医薬品」（「傷病」は風邪や喘息といった疾病・怪我の名前のことです）がありますが、それぞれの累積テーブル数を測定してみたところ「傷病」が15億5,000万件以上、「医薬品」が4億6,000件以上ありました。（傷病名の種類がこの数あるというわけではなく、全レセプトデータから傷病に分類される累計のテーブル数です）

他にも、カラムには以下のようなものがあります。

「患者情報」被保険者記号・番号、氏名、生年月日など
「傷病」患者が診断された疾病名　例：風邪、高血圧症
「診療行為」診療行為名　例：検査、X線、注射
「医薬品」医薬品名
「材料」診療行為で使われた材料　例：注射針、ブドウ糖

データの数に加えて、データの精度の高さもJMDCならではの特徴です。適用台帳にある個人情報とレセプトデータを独自の論理回路で紐づけることで、「誰がどこでどんな治療を受けて、どんな薬を処方されたのか」が追跡可能になっています。

一例を出すと、レセプトデータの中でも医科レセプトと調剤レセプトは出所が別ですので、全く別のものとして存在しています。そのため両方のレセプトデータがあったとしても同一人物のものだとみなされなかったり、薬がどんな病気で処方されたのかをつかむことはできません。

しかし、当社では一気通貫で紐づいているため、AさんがB病院でCという診断を受けてD調剤薬局でEという薬を処方されたことが分かります。この「すべての情報が紐づいている」ことが、ビッグデータ事業において何事にも代えがたい競争優位性になっています。他社にはないJMDC独自の稀有なデータといえるでしょう。

データ取込からデータベース化までの流れ

では、保険者データを取り込んでからデータベース化するまで、どんな工程を経ているのか一連の流れをご説明しましょう。

（１）レセプト取込システムで、診療報酬請求に紐づくデータとそれ以外の履歴データを見分けて、前者のデータを取り込む
（２）カラム単位でクレンジングを行う
（３）個人情報の匿名化処理
（４）名寄せ
（５）データベースへ集積

（２）のカラム単位のクレンジングでは、表記の揺れを防止しています。1と1.0のような同じ意味でも集計すると別々のレコードに分かれてしまう表記をルールに沿って統一しています。

（４）の名寄せは、表現のブレを1つに統一する処理を指します。例えば風邪ひとつとってもレセプトによってはカゼ、感冒など同じ傷病でも別の名前で記載されていることがあります。こうした場合、1つの表現に統一します。

名寄せは、複数表記のある文字パターンを蓄積した辞書データを使って、自動処理しているのですが、中にはそのパターンからはじかれてしまう情報が日々出てきます。それらをどの表記で判断するのかは、社内の医療事務経験者の専門チームがチェックし対応しています。

レセプトデータは、国内各所の医療機関から集まっているデータですので、さまざまなパターンが存在します。中には、システムが想定していない異例のパターンが出て、異常が発生する場合もまれにあります。

その場合、対象のレセプトが1件だとしてもしっかり調査をする必要があります。レセプトから読み取れる情報で仮説を立て、社内の有識者（JMDCには医師、薬剤師など専門知識を持つ方々が在籍）から知見を集め、異例なパターンを網羅したシステムへ改修します。

こうしたデータ調査をもとに処理を改善することで、以前より質の高いデータを後続のサービスへ届けられるようになるのです。基幹システムのエンジニアとしては、自分たちの責任を果たせたとやりがいを感じる部分でもありますね。

保険者データベースの後続サービスとしては、主なものに保険者支援向けのWebツール「らくらく健助」や、健康増進のための各種通知メニューがあります。そのほか、健保加入者が使う健康管理サービス「Pep Up」上のお薬手帳にデータが反映されています。

「疑わしきは表に出さない」個人情報の徹底管理

保険者データを取り扱ううえで、どんな意識や知見が必要になるのか。また、データ処理に関して、どんな技術を使っているのか。ここでは、データの扱い方についてお伝えしていきます。

「医療データというと、医療の専門知識が必要になるのでは？」と聞かれることがあります。それに対して私は「実は、それほど特別な知識は必要ないですよ」とお答えしています。皆さん、病気やケガで病院に行って治療を受けたことがありますよね。保険証を使ったことがない人もほとんどいないと思います。

レセプトデータに関しては、身近な情報がベースになるため、イメージがわきやすいものが多いです。もし理解が難しかったり、判断に迷う場合は、社内に在籍する医師、薬剤師、医療事務、検査技師など専門家の力を借りて、解決に導いています。

私たちが心掛けているのは、あるべき姿をデータベース化するために、医療の現場・現実に則した処理を作ることです。システム開発では、上記の専門家たちと連携しながら、現場の意見と現場を表すデータの双方を確認できるので、業務を通して少しずつ医療データへの知見を広げることができます。

どんな個人情報も見逃さない

私たちがデータを取り扱う中で最も注意しているのは、個人情報の取り扱いです。「疑わしきは絶対に表に出さない」をモットーに徹底管理しています。

個人情報は、氏名や生年月日以外だけにとどまりません。レセプトには薬剤師の免許証番号や、コメント欄に「〇〇先生（医師の名前）の指示のもと処方」と記載されているケースもあります。このような情報は除去する、もしくは暗号化処理を施す必要があります。各項目を神経を尖らせてチェックするのは、骨が折れる作業ですが見落としがあってはなりません。責任感を持ちながら向き合っています。

また、データ管理に関して、以下のような厳重に取り扱うための体制を構築しています。

■個人情報を扱う専用ルームの設置・・・普段のワークスペースとは別に、個人情報を扱う作業の専用ルームを設置しています。本番環境のデータベースにはこの部屋からしか接続できません。

■物理的な遮断環境・・・データを外に一切持ち出せないように、外部媒体が刺さらなかったり、本番環境以外のネットワークへ繋がらないようにしています。

ただし、調査結果を外部に報告する際に基盤となる集計データ（個人情報に当たらない部分）が必要になる場合があります。システムのパラメーターなど本番環境上のものを持ち出すときは、必ず管理者の承認を得るというフローを設けています。

独自の匿名化技術による暗号化処理

次に、データ処理技術にはどんな特色があるのかをお伝えします。JMDCの独自技術といえば、2008年頃に開発した不可逆的匿名化技術による高度暗号化処理（MediC-4）が筆頭に挙げられます。

MediC-4は、以下のように患者の個人情報を数字とアルファベットを含む記号に変換する処理です。

この処理は、個人情報が識別できないようにするだけではありません。同じ患者さんには同じ記号を振り分けています。そうすることで、もしある患者さんが病院を移ったとしても患者記号を軸にデータを連結すれば、どんな医療変遷をたどっているのか時系列で追跡することができます。

基幹システムエンジニアの成長ポイント

ここまでは主にデータに焦点を当てて解説しました。ここでは、医療データを扱う基幹システムエンジニアがどのような仕事をしているのか、また開発業務を通してどのような成長が見込めるのか、私がマネージャーを務める保険者基盤グループを例にお話したいと思います。

結論から申し上げると、私は「フルスタックエンジニアが育つ環境」として、とても理想的な環境だと思っています。

理由の一つは、担当範囲が非常に幅広いということ。当グループのエンジニアは、下記の流れで1チームでプロジェクトを進めています。

・データと技術目線で目標に向かってスキームをイメージする。
・プロジェクトに関わるデータの専門的視点を得る。
・プロダクトエンジニアとE/Uに有効なデータ構成を確認しながら、自分のイメージが正しいのか・間違っているのか確認と補正を繰り返す。
・巨大な基幹システムの一部として製品を具体化する。
・リリース後の運用・保守をする。

自社サービスを扱っているというのもあり、かなり幅広い範囲をカバーし対応しています。SIerのシステム開発業務ではなかなか経験できないシーンも多いかと思います。

また、JMDCは著しい成長フェーズにあり、取り扱うデータの種類や量も増え続けています。こうした急激な成長に合わせてシステムの維持と拡張するため、社内では新規システム導入や既存システムのリプレイス案件が常時複数進行しています。

このような大きなプロジェクトを経験すると、必然的にフルスタックな技術者として成長できる可能性が高くなります。（※大型リプレイス事例については、こちらの記事をご参照ください→「医療機関データのオンプレ → クラウド移行にかけた1年と、6倍の効率化について」）

社内には上記のような環境で育ってきた経験豊富な先輩方がたくさんいます。彼らと一緒にさまざまなプロジェクトを経験することで、フルスタックエンジニアの動き方の基礎を学べるでしょう。

また、データ処理技術を高めていく中でも技術的な成長が加速すると思っています。私たちは膨大なデータを集めて分析結果を集計している関係上、どうしても重い処理が発生します。そこを効率的に動作するよう調整するパフォーマンスチューニングもエンジニアの重要な仕事です。

JMDCでは、パフォーマンスの優れた高額データベースを導入していますが、それでも1プロジェクトあたり、1個はうんともすんとも進まない処理が出てくることもあります。パフォーマンスチューニングを続けることで、身につく技術的な知見やスキルは計り知れません。

最後になりますが、私自身、もともと医療分野に詳しくなく、特別に興味を抱いていたわけではありませんでした。しかし、JMDCが掲げるビジョンや、これからやっていきたいことを聞いて、とてもワクワクして入社を決めたのを覚えています

実際に入社して思うのは、JMDCはエンジニアとして自らが挑戦していきたい技術に対して、惜しみなく後押ししてくれる会社だということ。その技術が事業の方向性と一致していて、よリパフォーマンス向上につながるのであれば、プロジェクトでの役割やアーキテクチャの既成概念にとらわれず、チャンスを作ってくれる度量の広さがあります。

技術的な挑戦へ向けて、最初の一歩を踏み出しやすい環境だからこそ、意思があればできることはたくさんあると日々感じています。

最後までご覧いただきありがとうございました。
もし少しでも弊社にご興味をお持ちいただけましたら、こちらの採用ピッチ資料に詳しいことが記載してありますので、ぜひ一度ご覧ください。

https://drive.google.com/file/d/1nU_SwoUiGUvb7ZhPASNsjen1Xpp9GocP/view

株式会社JMDCからお誘い

この話題に共感したら、メンバーと話してみませんか？

株式会社JMDCでは一緒に働く仲間を募集しています

【エンジニア向け】医療データの種別を超解説 Vol.1 〜保険者データ編〜

栗賀智史

株式会社JMDC / コーポレート・スタッフ

1 いいね！

株式会社JMDC

【JMDCが目指すもの】健康で豊かな人生をすべての人に「医療費の増大」「医療の地域格差」「生活習慣病の増大」「労働力不足」、どれか一つは耳にしたことがあるのではないでしょうか。2025年に「超高齢社会」に突入します。社会保障費用が急増し、医療機関で受診をした際の負担金額が3割という今の制度を維持していくことも難しくなり、このままでは日本の医療が崩壊する恐れがあります。この課題を解決し、今存在している我々だけでなく、この先産まれてくる命も含めて、「健康で豊かな人生をすべての人に」届けたい。【ミッション】データとICTの力で、持続可能なヘルスケアシステムを実現する 2002年創業して以来、独自の匿名化処理技術とデータ解析力をもとに、健康保険組合や医療機関を支援してまいりました。20年の活動を通じ、業界のパイオニアとして現在では約1,893万人（総人口約15％）分を超える量の医療ビッグデータを保有するに至っています。そして、この医療ビッグデータを活用し「生活者個々のヘルスリテラシー向上（PHR/パーソナル・ヘルス・レコード実現）」「医師の貴重な医療スキル・リソースの最適配分」に繋げることで、医療費の健全化をしてまいります。 ※事業の詳細については会社紹介資料をご覧ください。→　https://speakerdeck.com/jmdc/about-jmdc （各データは、2024年3月末時点）医療ビッグデータを支える情報収集から集計・データ分析の仕組みを自社で開発・保有することで、大規模かつお客様にとって活用しやすい医療データベースサービスを提供しています。創業当初より培ってきた多くの健康保険組合や医療機関との強力な信頼関係と、医療ビッグデータに特化した事業展開をしてきたことで、蓄積してきた知見は他社には決してないものです。 ▼プロダクトについて ■JMDC Claims Database 民間利用可能な日本最大規模の医療データベースで、2024年3月時点で母集団数は約1,893万人を超えています。複数の健康保険組合より寄せられた入院、外来、調剤を含む医療診察報酬書（レセプト）および健診データを分析加工することで独自のデータベースを実現しています。 ■健助（けんすけ）健康保険組合ごとの加入者傾向や医療費の分析をサポートするサービスです。 ■JMDC Data Mart 特定の病気の推定発生数や投与の状況が調査できる製薬会社向けサービスです。 ■Pep Up（ペップアップ）健康保険組合の加入者の健康推進を直接サポートするWebサービスです。JMDCの持つ理論やデータを活用することで、個人の健康データを簡単に管理し、加入者の「健康年齢(R)」の維持改善に取り組むことが可能なサービスです。 ■clintal 患者さんが最適な医療を受けられるようにするためのサービス」を、全国の悩める患者さんにお届け ■JMDC QI 患者からも労働者からも選ばれる病院ための医療機関の診療の質を評価 ■Health Weather 医療データと気象データを使用し、疾患の発症・重症化リスク情報と関連情報を提供「データヘルス・予防サービス見本市」（厚生労働省）では2年連続の製品・サービス部門で、医療費の適正化や保健事業などにおける課題の解決に可能性を示したとして入賞するなど、医療×ビッグデータ領域において注目されています。

フォロー

栗賀智史さんにいいねを伝えよう

栗賀智史さんや会社があなたに興味を持つかも

【エンジニア向け】医療データの種別を超解説 Vol.1 〜保険者データ編〜

事業の原点は、紙レセプトを集めてデータ化すること

国内最大規模の累計1300万人のレセプトデータ

データ取込からデータベース化までの流れ

「疑わしきは表に出さない」個人情報の徹底管理

基幹システムエンジニアの成長ポイント

株式会社JMDC

今週のランキング