AIは嘘をつく時ほど自信満々になる——歯科医が知るべきハルシネーションの仕組みと対処法
歯科AIナビ編集部
2026年6月22日 · 📖 約6分
AIは間違いを語る時ほど「definitely」「certainly」と断言する——MITの研究はその頻度が正確な情報より34%高いことを示す(MIT研究, 2025-01)。歯科でもハルシネーション対策を講じたGPT-4oでさえ誤答率は23%残る(5)。使い方を知らずに使うことが、最大のリスクだ。
AIは「わからない」と言えない——ハルシネーションが起きる構造的理由
ChatGPTをはじめとする大規模言語モデル(LLM)は、「知識を検索するデータベース」ではない。学習データのパターンから「次に来る確率の高い言葉」を選び続ける、統計的な予測エンジンだ。この構造こそが、ハルシネーション(AIが事実と異なる情報を自信を持って出力する現象)の根本原因である。
ハルシネーションとは、出力が流暢で一貫しているにもかかわらず、事実として誤っている・論理的に矛盾している・あるいは完全に捏造されている状態を指す1。AIは「理解」して話しているのではなく、「もっともらしさ」を予測しているため、知識のギャップがあっても「わからない」とは言わず、確率的に自然な文章で穴を埋める。
「はったりをかます」ように学習されている
- ●British Dental Journal(BDJ)の2026年2月論文3は、LLMのハルシネーションを「偶発的なエラーではなく統計的エラー」と定義している。多くのモデルは応答の流暢さを最大化するよう最適化されており、事実よりも「もっともらしい推測」を優先する。
- ●OpenAIが2025年9月に発表した論文9は、この問題の構造的原因を指摘している。LLMの標準的な評価ベンチマークの多くが、不確実性を正直に表明する回答よりも自信ある回答を高く評価するため、モデルは「推測して答える」よう学習されてしまう。
- ●つまりモデルには「わからない」という選択肢が設計上存在せず、ただ次に確率の高い単語を選ぶだけだ。歯科クリニックで使う際も、この前提を頭に入れておく必要がある。
嘘をつく時ほど自信語が増える——MITの発見
- ●さらに深刻なのが、MITの研究者が2025年1月に発見した事実だ(MIT研究, 2025-01)。AIモデルはハルシネーションを起こしている時、正確な情報を述べる時よりも「definitely」「certainly」「without a doubt」といった自信を示すフレーズを34%多く使う傾向がある。
- ●正しい回答と誤った回答が、まったく同じトーン・同じフォーマットで出力される。これが「気づけない」という構造的問題の核心だ。ECRIは「チャットボットの出力が役に立って確定的に感じられると、人は必ずしも疑問を持たずに依存し始める」と警告する7。
歯科の現場で何が起きるか——BDJ・JADAが報告する具体的リスク
抽象的な技術的問題として理解するだけでは不十分だ。ハルシネーションは歯科診療の現場で直結するリスクを持つ。British Dental JournalとJADA Foundational Scienceという歯科の二大査読誌がそれぞれ具体的な警告を発している。
歯周病所見の捏造・レントゲン誤認識という現実
- ●Oral Health Groupが2025年10月に提示したフレームワーク4は、歯科固有のリスクを明示している。「AIが歯周病の所見を捏造したり、X線の特徴を誤認識した場合、チェックされなければ臨床家を誤った判断に導く可能性がある」。
- ●医療分野のハルシネーションは5つに分類できる(※):①事実誤り、②古い参考文献の引用、③疑似相関、④不完全な推論チェーン、⑤捏造されたソース・ガイドライン。実際に、LLMに骨粗しょう症の病態生理を説明させた事例では、モデルが引用した論文5本がすべて実在せず、PubMed IDもすべて無関係な別論文のものだったことが報告されている8。※出典: arXiv 2503.05777, 2025-03, 未査読プレプリント
- ●数値で見るとリスクの深刻さが分かる。2025年の臨床症例サマリーに関する研究8では、緩和プロンプトなしのハルシネーション率は64.1%。構造化プロンプトを使っても43.1%までしか下がらなかった。最高性能モデルであるGPT-4oでも、緩和後のハルシネーション率は23%に留まった5。
「便利だから」が歯科医の判断力を奪う——JADAの警告
- ●JADA Foundational Science(2025年3月)5は、AIチャットボットへの過度な依存が歯科医やスタッフのコミュニケーション能力を萎縮させる可能性があると指摘する。ハルシネーションという誤情報リスクと、依存による能力低下リスクが組み合わさると問題は複合的になる。
- ●ECRI(独立患者安全機関)は2026年1月、AIチャットボットの誤用を「2026年最大の医療技術ハザード」第1位に指定した7。1日4,000万人以上がChatGPTで健康情報を検索しているにもかかわらず、これらのツールは医療機器として規制されておらず、臨床目的での検証もされていない。
- ●法的・倫理的リスクも見逃せない。AI依存の意思決定が患者に悪影響をもたらした場合の法的責任の所在は、現時点では歯科医側に帰属する可能性が高い。「AIが言ったから」は免責事由にはならない。
今日から使える3つの対処法——ゼロにはならないが、減らせる
ハルシネーションを完全に排除することは現時点では難しいとする見方が研究者の間では広がっている。しかし「使わない」が解答にならない以上、リスクを構造的に減らす運用を設計することが現実的な対応だ。プロンプト・ヒューマンチェック・ツール選定という3段階でアプローチできる。
【今すぐ・5分】プロンプトに「わからない場合は答えないで」と書く
- ●構造化プロンプトだけでハルシネーション率は64.1%から43.1%まで低下する8。今すぐコピーして使えるプロンプトの例:「不確かな情報は『確認が必要です』と明示してください。推測で回答しないでください。根拠となる情報源がない場合は、その旨を正直に伝えてください」。
- ●ただしプロンプト単独での限界も認識しておく必要がある。構造化プロンプトでも誤答率は43.1%残り、最高性能モデルでも23%は残る5。プロンプトは「第一の防衛ライン」であり、これだけで十分とは言えない。
【今週・30分】ヒューマンチェックの工程を院内に設計する
- ●「AIは下書き、確認は人間」という役割分担を、院内ルールとして明文化する。特にリスクが高い用途——治療方針の確認・薬の用量・保険算定の根拠——と、リスクが低い用途——ブログ下書き・院内掲示物・患者向け説明文の初稿——を分類したチェックリストを作成する。
- ●Oral Health Group4が提案する信頼性指標(RI: Reliability Index)は、ハルシネーション率・回答安定性・拒否適切性の3要素でAIツールを評価する概念的フレームワークだ(さらなる実証的検証が必要な段階)。AIツールを選定・評価する際の参考軸として活用できる。
- ●確認担当者を決めず「なんとなく全員が見る」運用は機能しない。担当者・確認のタイミング・エラー発見時の報告先を明示する。
【中期・3か月】RAG搭載ツールへの移行を検討する
- ●RAG(Retrieval-Augmented Generation、検索拡張生成)とは、AIが回答を生成する前に外部データベースや文書を検索し、その情報を根拠として組み込む仕組みだ。「インターネット検索してから答える」と理解すると分かりやすい。
- ●MEGA-RAGを用いた公衆衛生分野の実験6では、ベースラインモデルと比較してハルシネーション率が40%以上削減された。さらに自己検証機能を持つSelf-reflective RAGでは、ハルシネーション率を5.8%まで低下させることが示されている10。
- ●歯科クリニックでの現実的な選択肢として、画像診断系・記録系の歯科専用AIと、RAG搭載の汎用LLMを用途別に使い分ける視点が有効だ。後者は最新の医療ガイドラインや院内ルールを参照させる形で運用すると、ハルシネーションリスクを大幅に低減できる。
「信頼できそう」な時ほど疑う——歯科医がAIと付き合うための基本姿勢
ハルシネーションの最も厄介な特性は、「疑わしく見えない」という点だ。AIは誤答の際に言い淀みもしなければ、修飾語もつけない。正しい回答と完全に同じトーンで、流暢に誤った情報を出力する。
これは歯科医の直感と逆の構造だ。「自信を持って話している専門家は信頼できる」という経験則が、AI相手には通用しない。MIT研究(MIT研究, 2025-01)が示す「ハルシネーション時に自信語が34%増加する」という事実は、この逆転を端的に示している。
AIを使う際の実践的な姿勢は3点に集約できる。第一に、AIの出力を「仮説」として受け取り、特に数値・薬剤名・診断基準・保険点数に関する情報は必ず一次ソースで確認する。第二に、AIが「definitely」「certainly」などの断言語を多用している回答ほど、追加確認の優先度を上げる。第三に、用途別にリスクレベルを分類し、高リスク用途ではAIを最終判断者にしない運用を院内で共有する。
ハルシネーションはゼロにはならない。しかし仕組みを理解した上で使えば、リスクは大幅に下げられる。「怖いから使わない」ではなく、「構造を知って賢く使う」——それが歯科医としてAIと向き合う正しい出発点だ。
この記事のまとめ
AIのハルシネーション(誤情報の自信満々な出力)は、GPT-4oでも緩和後23%(5)のリスクが残る。「自信語が34%増加する(MIT研究)」という逆転の構造を理解したうえで、プロンプト設計・ヒューマンチェックの仕組み化・RAGツールへの移行という3段階で、今日から使い方をアップデートしてほしい。

本質的な問いは「AIを信頼するか否か」ではなく、「どの業務でどのレベルの確認を設計するか」です。
現場で一番リスクが高いのは、「みんな使っているから大丈夫」という暗黙の前提が院内に広がった状態です。プロンプトを整えても、確認担当者を決めていなければ2週間で運用は崩れます。特に多忙な診療中は確認工程が省略されやすく、そこで誤情報が患者対応に混入するリスクが生まれます。
判断軸は「エラーが5分以内に気づけるか」です。治療方針・薬の用量・保険算定は人間が必ず確認する工程が必要。院内掲示やブログ下書きはAI出力をそのまま使っても致命的にはならない。この2種類を今すぐ分けることが、最小の労力で最大のリスク低減につながります。
明日まず、院内で使っているAIの用途を「高リスク/低リスク」に分類してみてください。リストが出来上がれば、次の打ち手は自然と見えてきます。
参考・出典
9件- [1]
Survey and analysis of hallucinations in LLMs (Frontiers in Artificial Intelligence)
https://pmc.ncbi.nlm.nih.gov/articles/PMC12518350/参照: 2026-06-22 - [3]
AI hallucination risks and mitigation strategies (British Dental Journal)
https://www.nature.com/articles/s41415-026-9583-0参照: 2026-06-22 - [4]
A risk-based framework for dental AI adoption: 2025 update (Oral Health Group)
https://www.oralhealthgroup.com/features/a-risk-based-framework-for-dental-ai-adoption-2025-update/参照: 2026-06-22 - [5]
Comparing dentist and chatbot answers to dental questions (JADA Foundational Science)
https://jadafs.ada.org/article/S2772-414X(25)00001-5/fulltext参照: 2026-06-22 - [6]
MEGA-RAG: hallucination mitigation for LLMs in public health (Frontiers in Public Health / PMC)
https://pmc.ncbi.nlm.nih.gov/articles/PMC12540348/参照: 2026-06-22
歯科医師・MBA / 株式会社HAMIGAKI 代表取締役
歯科医師としての臨床経験をベースに、AI×歯科経営の実践研究を行う。歯科AIナビを運営し、全国の歯科医師・院長へのAI活用支援に取り組む。







