ChatGPT、小児歯科診断で正答率80%——歯科医院で「今すぐ使える場面」と「使ってはいけない場面」
歯科AIナビ編集部
2026年6月15日 · 📖 約6分
ChatGPTは小児歯科の診断・治療計画で正答率80%を達成した一方、誤答に対して正答より詳細な説明を付けるという逆転現象も確認されている。補完的ツールとして正しく使えば、治療計画の壁打ち・患者説明文の下書き・スタッフの問診練習という3つの場面で院内業務を効率化できる。
ChatGPTは小児歯科診断で正答率80%——ただし「補完ツール」止まりの理由
ChatGPTは歯科臨床の現場でどこまで使えるのか。その問いに直接答える研究が相次いで発表されている。小児歯科ケースシナリオ10件を使った評価では、ChatGPT(v3.5)が診断・治療計画において80%の正答率を達成し、Cohen's kappa統計で小児歯科医との一致度が確認された4。一方、歯科インプラント治療計画60件の評価では、全身疾患シナリオのGQS(Global Quality Score)は3.83±0.69、骨欠損シナリオは3.20±0.40と有意差があり(p<0.05)3、得意・不得意が病態の種類によってはっきり分かれることが示された。
この結果が示す構造は明確だ。投薬歴・全身疾患・アレルギーといった「テキストで記述できる情報」を統合して思考するタスクにはChatGPTが力を発揮する。しかしX線画像の読影・形態評価・骨欠損の程度判定など「画像・触診を要するタスク」は現時点のテキストモデルでは本質的な補助が難しい。査読システマティックレビューは、LLMを「補完的ツール(complementary tools)」として使うべきであり、臨床意思決定の最終的な根拠としては使えないと明示している1。
なぜ100%にならないか——ハルシネーションの仕組み
- ●ハルシネーション(もっともらしいが事実として誤った情報をAIが生成する現象)の根本原因は「不確実性を認めるよりも流暢な回答を優先する」モデル設計にある8
- ●特に危険なのは「誤答に対して正答より詳細な説明を付ける」という逆転現象。歯科国家試験でのLLMメタ分析がこれを実証している10
- ●つまり「詳しく説明している=正確」という直感が通じない。自信満々な長文回答こそ、最初に疑う習慣が必要になる
- ●ChatGPTが引用文献を捏造したり臨床ガイドラインを誤解釈したりする例も報告されており8、出力の検証は省略できない
歯科医院で「今すぐ使える」3つの場面——エビデンスで選ぶ優先順位
ChatGPTを使う場面を選ぶ基準はシンプルだ。「最終確認を医師が必ず行う構造になっているか」という一点に尽きる。その前提を満たす場面として、研究エビデンスが揃っている3つを以下に整理する。
場面①——治療計画の壁打ち(最もエビデンスが豊富)
- ●使い方:患者の主訴・現病歴・全身疾患歴・服薬状況をテキストで入力し、「見落としている鑑別診断はないか」「注意すべき薬物相互作用はあるか」と問いかける
- ●研究が示す強み:全身疾患シナリオでのGQS 3.833が示すように、複数の全身的背景を統合する思考の補助に向いている
- ●⚠️ 絶対ルール:患者の氏名・生年月日・具体的な個人識別情報はコンシューマー版ChatGPTに入力しない。医療情報のプライバシーを守るセキュア環境向けに設計されていないためだ7
- ●プロンプト例:「52歳男性。糖尿病(HbA1c 7.8)・抗血小板薬(アスピリン100mg)服用中。右下6番の抜歯を検討している。見落としやすい注意点と追加確認事項を列挙してください」
場面②——患者説明文の下書き作成(理解しやすさは高評価)
- ●ChatGPT-4.0は患者教育材料の「理解しやすさ」評価(PEMAT)で4シナリオ中3件で70%閾値を超え、比較した4モデルの中で最高評価を獲得した2
- ●ただし課題も明確だ。Flesch Reading Easeスコアが52.2〜69.92と「やや難しい」領域に留まるケースがあり、「次のステップ」が患者に伝わらないactionabilityの低さも指摘されている9
- ●推奨ワークフロー:ChatGPTが叩き台を作成→院長が平易な言葉・具体的な指示に調整→患者へ渡す。この「AI下書き+医師確認」の2段構えがエビデンスでも推奨されている2
- ●プロンプト例:「根管治療を初めて受ける40代の患者に向けて、治療の流れ・痛みの程度・注意事項を中学生でも理解できる言葉で説明してください。箇条書き形式で300字以内にまとめてください」
場面③——スタッフの問診・接遇ロールプレイ(教育用途で最も伸びしろあり)
- ●歯科の診断・治療計画に不可欠な問診スキルは、臨床前年次に十分な練習機会が確保できないという構造的課題がある11
- ●LLMベースの仮想患者をシミュレーション教育に用いたJMIR研究では、学生の肯定的な受容性・ほぼ本物らしい対話が確認された6。シドニー大学の研究でも、GPT-4を仮想患者に使った問診練習で歯科学生の能力向上が確認されている11
- ●医院への転用:新人歯科助手・受付スタッフの接遇ロールプレイ相手として活用できる。ChatGPTに「不安を持つ初診患者として振る舞い、スタッフの説明に対して疑問や不満を返してください」と指示すれば24時間・繰り返し練習できる
- ●プロンプト例(スタッフ教育用):「あなたは歯科治療に強い恐怖心を持つ35歳の患者です。初診で受付に電話をかけてきました。スタッフが話しかけてきたら、不安を示しながら応答してください」
「使ってはいけない場面」と安全に使い続けるための3つのルール
ChatGPTを院内に導入する前に、「やってはいけないこと」を明文化しておく必要がある。口頭だけでは徹底されないため、場面ごとの可否を1枚のリストにして院内共有することを勧める。
絶対NGの2ライン
- ●【NG①】患者の氏名・生年月日・症状の詳細な組み合わせをコンシューマー版ChatGPTに入力する。セキュアな医療環境向けに設計されていないという根本的な問題がある7
- ●【NG②】ChatGPTの回答を確認せず患者に伝える・カルテに記録する。LLMは補完的ツールであり、臨床意思決定の最終根拠として使うべきでないとシステマティックレビューが明示している1
出力の質を上げるプロンプト設計の3つのコツ
- ●【コツ①・役割付与】「口腔外科専門医として」「日本の歯科保険診療の文脈で」など役割と文脈を最初に与える。LLMのアウトプット品質はプロンプトの言葉づかいや構造の小さな変化で大きく変わる7
- ●【コツ②・few-shot(例示)】「以下の形式で答えてください:1.診断名 2.鑑別すべき疾患 3.追加検査 4.注意事項」のように出力形式を具体例で示す7
- ●【コツ③・chain-of-thought(思考過程を述べさせる)】「理由とともに答えてください」「ステップごとに考えてください」と加えると、推論の過程が可視化され誤りを発見しやすくなる7
日本語使用時に注意すべき点
- ●ChatGPTを含む主要LLMは英語データを中心に学習されており、日本語での医療情報精度が英語と同等とは言い切れない可能性がある
- ●日本語固有の保険診療ルール・算定基準・薬剤名(一般名と商品名の対応)については、必ず国内の公式資料で確認する習慣をつける
- ●「日本の保険診療に基づいて」とプロンプトに明記することで、一定の文脈制御が期待できる
ChatGPTを院内で運用するための最小セットアップ
「どこから始めるか」が分からず導入が止まるケースは多い。以下に、明日から動かせる最小構成を示す。
Step 1:院内ルール1枚を作る(所要時間:30分)
- ●「使ってよい場面」「使ってはいけない場面」を箇条書きで1枚にまとめ、院内掲示または共有フォルダに置く
- ●必須記載項目:個人情報入力禁止・最終確認は必ず医師が行う・出力の無断転用禁止
Step 2:1用途・1週間のトライアルをする
- ●最初から複数用途を同時展開しない。「患者説明文の下書き」だけを1週間試し、時間短縮効果と品質を計測する
- ●記録すべき指標:下書き作成時間の変化・医師による修正箇所数・スタッフの操作習熟時間
Step 3:プロンプトを院内で共有・改善する
- ●効果があったプロンプトは共有ドキュメントにストックし、院内全員が使えるようにする
- ●「使ってみたが役に立たなかったプロンプト」の記録も価値がある。どの場面でChatGPTが機能しないかを把握することが、安全な運用の基礎になる
この記事のまとめ
ChatGPTは小児歯科診断で正答率80%(4)を達成する一方、誤答ほど詳細な説明を付ける「ハルシネーション」リスクも実証されている(10)。治療計画の壁打ち・患者説明文の下書き・スタッフ教育の3場面で補完ツールとして活用しつつ、患者個人情報の入力禁止と最終確認を医師が必ず行うという2つのルールを院内で明文化することが、安全な運用の大前提になる。

ChatGPTを院内に入れるとき、本質的な問いは「どこまで使えるか」ではなく「最終判断の責任を誰が持つ構造を設計できているか」です。
現場で詰まるのはここです。患者説明文の下書きをChatGPTに作らせたとして、忙しい診療の合間にスタッフが「AIが作ったから大丈夫」と確認せず渡してしまう運用になると、省力化したはずが確認工程のコストで本末転倒になります。ハルシネーションは「明らかにおかしい回答」より「一見正しそうな誤情報」で問題になる。だからこそ運用設計が先です。
判断軸は2つ。「その出力が患者に直接届くか」と「誤りを5分以内で気づける仕組みがあるか」。どちらかが「No」なら今は使わないほうがいい。
明日やることは一つ。院内で「ChatGPTを使ってよい業務・使ってはいけない業務」のリストを1枚作ること。ルールが存在することで、スタッフも安心して使える土台ができます。
参考・出典
11件- [1]
The role of large language models in dental diagnosis, decision-making, and communication: A systematic review
https://pmc.ncbi.nlm.nih.gov/articles/PMC12865642/参照: 2026-06-15 - [2]
Assessing the power of AI: a comparative evaluation of large language models in generating patient education materials in dentistry
https://www.nature.com/articles/s41405-025-00349-1参照: 2026-06-15 - [3]
Performance of ChatGPT in dental implant treatment planning: evaluation using modified DISCERN, GQS, and accuracy–safety score
https://link.springer.com/article/10.1186/s12903-026-08009-y参照: 2026-06-15 - [4]
Comparative Evaluation of Diagnosis and Treatment Plan Given by Pediatric Dentists and Generated by ChatGPT
https://www.ncbi.nlm.nih.gov/pmc/articles/PMC12369277/参照: 2026-06-15 - [5]
Educational Applications of ChatGPT in University-Based Dental Education: A Systematic Review
https://pmc.ncbi.nlm.nih.gov/articles/PMC13090418/参照: 2026-06-15
歯科医師・MBA / 株式会社HAMIGAKI 代表取締役
歯科医師としての臨床経験をベースに、AI×歯科経営の実践研究を行う。歯科AIナビを運営し、全国の歯科医師・院長へのAI活用支援に取り組む。






