ChatGPT で英語を勉強するのは本当に効くのか|世界の研究で分かった得意な使い方と苦手な使い方

ChatGPT で英語勉強って効くんですか?

答えは『何を伸ばすか』で変わります。Kohnke 2023 RELC J が得意と苦手をはっきり線引きしているんです。

作文の添削に使うのは信頼できますか?

Mizumoto と Eguchi 2023 では ChatGPT の作文採点が人間採点と相関 r=.83 で一致と報告されていますよ。

スピーキングの練習相手にしてもいい?

Mackey と Goo 2007 のメタ分析では対話の効果量 d=0.92 と大きく、AI 単独では生身の意味交渉を再現しにくいんです。

文法説明を鵜呑みにしていい?

Bender 2021 が hallucination のリスクを指摘します。本文で得意と苦手の使い分けを 13 件の研究で線引きしますね。
ChatGPT が英語学習に効くかは『何を伸ばすか』で答えが変わる [E01]。作文の添削と採点は人間の教師と高い一致を示している [E05]。生徒に合わせた説明と例文を出す個別の指導も強い [E03]。心理的なハードルが下がり練習の量が増える効果も報告がある [E08]。一方で本物の対話の意味のすり合わせは構造的に再現しにくい [E10]。事実と違う『もっともらしい嘘』を返すリスクも残る [E12]。即答が返るために『自分で組み立てる苦労』の機会が省かれ記憶の定着が弱まる懸念もある [E13]。本記事では得意と苦手を研究で線引きし、大人の実用の使い分けに落とし込む。
ChatGPT は英語学習に効くのか — 世界の研究の全体像

結局 ChatGPT は効くんですか?

Hwang & Chang 2023 のレビューで効果量は中程度ですが、課題依存性が大きいと結論されているんです。
『ChatGPT で英語の勉強は本当に効くのか』という問いに、ひと言で答えるのは難しい。理由は、英語の学習が複数の作業で構成されているからである。作文を書く、文法を理解する、語彙を覚える、発音を矯正する、生身の相手と話す、と作業は分かれている。そして作業ごとに ChatGPT の得意と苦手が分かれる、というのが現在の研究の結論である [E01]。
Kohnke ら (2023) の RELC Journal の論文を見たい [E01]。香港教育大学などの研究者が ChatGPT の言語教育への応用について系統的にまとめた論文である (= 過去の研究を集めて整理する論文、というイメージ)。利点として、即時のフィードバック、生徒のレベルに合わせた個別の対応、心理的なハードルの低さ、を挙げた。一方で懸念として、事実性の弱さ、倫理の問題、教師の役割の再定義の必要、を指摘した。『万能ではないが、軸を選べば強い道具』というのが論文の核である。
Hwang & Chang (2023) の Computers and Education AI の論文も同じ方向を示している [E02]。AI のチャットボットの教育の研究 80 本以上を集めて整理したレビューである。学習の効果の大きさは概ね中程度であった (= 100 人いれば 50-70 人くらいに効く強さ、というイメージ)。ただし課題に依存する幅が大きいことも報告された。タスクの種類や学年や目標で効き方が変わる、という結論である。
Pesovski ら (2024) の Education Sciences の論文を見たい [E03]。生成 AI が学習者のレベルや誤りの傾向に合わせて『次に出す問題』を変える効果を実証した研究である。1 対 1 の家庭教師がもつ強い効果を、AI で部分的に再現できる可能性を示唆した。なおこの強い効果は Bloom が 1984 年に『2 シグマ問題』として報告した古典である。家庭教師の生徒は普通の授業より平均で 2 段階上、という発見である。冒頭の整理としては『得意な作業と苦手な作業を分ける』のが研究の主要な含意である。
念のため一点、補足したい。本記事では『ChatGPT』を 1 つの製品の固有名ではなく LLM の代表として扱う。LLM とは Large Language Model のことで、大きな言葉のモデルというイメージである。Claude や Gemini などの似た系統のサービスにも、本記事の結論は概ね当てはまる。研究で確認されている性質が、製品の名前に依存しないからである。
得意 1: ライティング添削 と 作文フィードバック

自分の作文を ChatGPT に直してもらって平気?

Yan 2023 と Barrot 2023 で人間と類似品質、Mizumoto と Eguchi 2023 で採点相関 r=.83 と確認されています。
得意な軸の 1 つ目は、英作文の添削とフィードバックである (= 添削 = 書いた文章を直す作業、フィードバック = どこをどう直すかの説明、というイメージ)。研究の証拠が最も厚い軸である。
Mizumoto と Eguchi (2023) の論文を見たい [E05]。日本の研究者が ChatGPT による英作文の自動採点を、人間の採点者の結果と比較した研究である。相関の指標は r=.83 であった (= 100 人の作文の順位がほぼ同じ並びになるくらい一致した、というイメージ)。さらに IRT という統計のモデルでも採点の妥当性が確認された。IRT は Item Response Theory のことで、受験者の力と問題の難しさを同時に推定する手法である。安価で大規模な採点に使える可能性が示された。
Yan (2023) の Education and Information Technologies の論文も似た方向の結果を出した [E04]。L2 学習者の作文に対する ChatGPT の添削の質を、人間の教師の添削と比べた調査である。L2 は Second Language のことで、母語の次に学ぶ言葉というイメージである。両者の品質は類似していた。学習者は ChatGPT のフィードバックを参考にして作文を修正し、修正後の品質も向上した。ただし批判的に検証する力をもつ学習者ほど効果が大きい傾向も観察された。鵜呑みにせず確認する姿勢が前提という意味である。
Barrot (2023) の Assessing Writing の論文も同じ方向の知見を出した [E06]。ChatGPT を使った作文の支援が学習者の文法の精度と語彙の使用とテクストの構成を有意に向上させたと報告した。一方で過度の依存、剽窃のリスク、批判的な思考の機会の喪失も指摘された。電卓を使うと計算は速くなるが暗算の力は鈍る、という構図に似ている。道具としては強いが、使い方の設計が伴わないと逆効果になる、という整理である。
3 本の論文を並べて見ると結論の方向は揃っている。書く軸では ChatGPT は信頼できる援助になる。ただし鵜呑みは避け、検証と自分の作業の組み合わせが前提という共通の含意がある [E04][E05][E06]。
得意 2: 個別最適のチューター と 例文の生成
得意な軸の 2 つ目は、生徒のレベルに合わせた個別の指導と、無限に例文を生成できる点である。家庭教師のような対応が、低コストで近似できる軸である。
Pesovski ら (2024) の研究は前章で触れた通り、生徒のレベルや誤りの傾向に合わせて出題と説明を変える効果を示した [E03]。1 対 1 の指導は集団の授業より大きく効くことが古くから知られている (前章で触れた Bloom の『2 シグマ問題』を参照)。AI のチューターは、この強い効果を全員に届ける可能性をもつ、と論文は議論している。
Kasneci ら (2023) の Learning and Individual Differences の論文も同じ方向の整理を行っている [E07]。ChatGPT を含む LLM の教育への応用の利点として、3 つを挙げた。生徒のレベルに合わせた説明、無限の例文の生成、反復のドリル、である (= ドリル = 同じ型の問題を繰り返し解く練習、漢字の練習帳のイメージ)。先生 1 人で 40 人の生徒に同じ授業をするしかなかった構造に対して、生徒ごとに違う説明を出せる選択肢が増えた、という意味である。
具体的な使い方の例も挙げておきたい。文法の説明が分からなかった場合に『中学 2 年生にも分かるように説明し直して』と頼める。例文が足りない場合に『過去完了を使った文を 5 個、ビジネスの場面で生成して』と頼める。間違えた問題の類題を『同じ難しさで 3 つ作って』と頼める。これらは紙の教材では低コストでは実現できなかった作業である。
ただし得意であることと万能であることは違う。Kasneci ら (2023) も同論文で指摘しているが、出力の事実性と評価の妥当性には別途の検証が必要である [E07]。例文が文法的に間違っている場合、説明が誤っている場合、ドリルの難易度の調整が外れている場合、がある。次節の苦手 2 で詳しく見る。
得意 3: 心理的ハードルの低減 と 練習の量の増加

AI 相手なら間違えても恥ずかしくないですよね?

Kohnke 2023 で量は稼げると報告されますが、Yashima 2009 の対人 WTC は別軸で人間との練習も必要なんです。
得意な軸の 3 つ目は、心理的なハードルの低さである (= ハードル = 心の壁、というイメージ)。AI を相手にする練習では、間違いを恥ずかしがらず練習の量が増えやすい。
Kohnke (2023) と Hwang (2023) の両方が、AI 相手の練習で試行の回数が増える傾向を報告している [E01][E02]。学習者が間違いを恥ずかしがらず量を稼げる、という意味である。人間の先生や友達の前では『間違えたら笑われるのでは』『発音が下手だと思われるのでは』という不安が、発話を抑制する。これは日本人の英語学習者に特に強い傾向として知られてきた。
Yashima (2009) の研究を補助で引用したい [E08]。日本人の EFL 学習者の WTC を扱った研究である。EFL は English as a Foreign Language のことで、外国語として英語を学ぶ環境を指す。WTC とは『英語で話したいと思う気持ちの強さ』を意味する研究上の言葉である (= Willingness to Communicate)。WTC は『国際的に関わりたい志向』と『なりたい自分の英語の姿』に支えられる。対人の WTC は生身の相手と通じ合えた成功の経験で育つ、と実証された。
ここで注意したい点がある。AI 相手の練習で量が増えるのは事実である。一方で、人間の相手に対する WTC が育つ条件は、生身の成功の経験である。AI 相手で発話の量を稼いでも、それが直接に対人の WTC に転移するとは限らない。AI の練習で慣らした後で、必ず生身の相手との会話の機会を組む必要がある、という設計の含意になる [E08]。
実用に落とすと、AI を『練習の量を稼ぐ場』として位置付け、人間を『本番の場』として位置付ける 2 段階の設計が合理的である。AI で発話の心理的なハードルを下げて、人間相手の会話の予行をする、という流れである。AI 単独で完結させると、肝心の対人の WTC が育たないまま量だけが増える結果になりやすい。
苦手 1: 音声と発音 と 本物の意味すり合わせ

ChatGPT で英会話の練習は足りますか?

Loewen と Sato 2018 で生身の意味交渉はテキスト AI では構造的に再現困難と整理されているんです。
ここから苦手の軸に入る。1 つ目は、音声と発音、そして本物の意味のすり合わせの軸である。テキストの LLM が構造的に弱い領域である。
Long (1996) の相互行為仮説を見たい [E09]。原語では interaction hypothesis という (= 『相手と意味をすり合わせる経験』が言葉を覚える鍵だとする考え方、というイメージ)。L2 の習得は、相手との会話の中で『今のどういう意味』と確認する循環で進む、という主張である。誤解 → 言い換え → 確認の連鎖が、新しい言葉の取り込みを駆動する、と整理されている。古典の SLA 理論として広く参照されている。
Mackey と Goo (2007) のメタ分析を見たい [E10] (= メタ分析 = 複数の研究の結果を一つにまとめる統計の手法、というイメージ)。対話の相互行為の効果を 30 本以上の研究で平均した。効果の大きさは d=0.92 という値であった (= 100 人いれば 83 人くらいに強く効く大きさ、というイメージ)。生身の対話で起きる意味の交渉と、誤りを訂正するフィードバックが、習得を加速させる強い証拠である。
Loewen & Sato (2018) の Language Teaching のレビューも同じ方向を支持している [E11]。教室での相互行為と訂正のフィードバックの効果を、最新の研究で改めて整理した。生身の対話で起きる『誤解 → 言い換え → 確認』の連鎖は、テキストの非同期のやり取りでは構造的に再現が困難である、と指摘した。同じことが ChatGPT との対話にも当てはまる。
なぜテキストの AI では構造的に再現が困難なのか。理由は 3 つある。1 つ目は、音の情報が抜けている点である。発音の評価は耳でしか測れない。2 つ目は、相手が『分かっていないこと』を非言語の信号 (顔の表情や間合い) で伝える経路がない点である。3 つ目は、AI 側が『あなたの今の発話のここが分かっていない』と返してこない設計の点である。ChatGPT は基本的に『分かりました』として処理を続ける性質をもつ。意味の交渉が成立しない。
含意は明確である。発音の練習と、生身の相手との会話の機会は、別のツールや人間で補う必要がある [E09][E10][E11]。シャドーイング、発音の評価アプリ、英会話の教室、言語の交換のアプリ、留学、などが代替の候補になる。
苦手 2: hallucination と 事実性の限界
苦手の軸の 2 つ目は、hallucination と呼ばれる現象である (= LLM がもっともらしい嘘を返してしまう現象、というイメージ)。英語の学習でも実害が出る軸である。
Bender ら (2021) の FAccT の論文を見たい [E12]。FAccT は機械学習の倫理を扱う主要な国際会議の一つである。Fairness, Accountability, and Transparency の頭文字を取った略称である。LLM は意味を理解して話しているのではない、と論文は整理する。巨大な学習データから統計のパターンを再現して話しているだけ、という主張である。著者らはこの性質を『確率的なオウム』と呼んだ (= stochastic parrots)。オウムは言葉の意味を分かっていないが音を真似て喋る、それと似ている、というイメージである。
意味の理解ではなくパターンの再現で動くという性質は、事実性が構造的に保証されない、という結論につながる。LLM はもっともらしい嘘を返すことがある。英語の学習の文脈で実害が出る場面は、具体的に 3 つある。1 つ目は、存在しない例文や慣用句を生成するケースである。実際の英語の母語話者は使わない表現を、堂々と例文として出してくる。2 つ目は、文法の説明が誤っているケースである。3 つ目は、出典として架空の論文を引用するケースである (= 学者の名前と論文の題名と発表の年が、全部 LLM が作り出した架空の情報、という事例)。
Kasneci ら (2023) と Hwang & Chang (2023) も教育の文脈で同じ懸念を整理している [E07][E02]。LLM の出力は鵜呑みにせず、別の信頼できる情報源で検証する作業が必要である、と結論している。検証のコストは、ユーザー側の批判的な思考の力に依存する。批判的な検証の力が弱い学習者ほど、誤情報の影響を受けやすい構造である。
実用の含意も明確である。文法の説明や例文は、必ず別の情報源 (信頼できる文法書、辞書、学校の英語の教科書、母語話者) で照合する作業を入れる。重要度が高い文章 (仕事のメール、契約の書類) では、最終の判断を AI に任せない。検証の作業を省くと、誤った知識が頭の中に積み上がるリスクがある [E12]。
苦手 3: メタ認知の劣化 と 苦労の喪失
苦手の軸の 3 つ目は、即答が返ることで『自分で組み立てる苦労』の機会が失われる問題である。これはメタ認知の劣化につながる (= メタ認知 = 自分の理解の状態を自分で把握する力、というイメージ)。長期の学習の効率に効く論点である。
Bjork と Bjork (2011) の『望ましい困難』の考え方を見たい [E13]。原語では desirable difficulty といい、学ぶときに少し苦労する方が長く覚えていられる、という考え方である。心理学の長年の研究では、学習の最中の苦労を適度に組み込むことが、長期の記憶の定着の鍵だと整理されてきた。即答が返ってくる環境では、短期の成績は上がる。一方で、長期の保持と、別の文脈に転移する力は下がる傾向がある、と報告されている。
具体的に英語の学習に当てはめると、こうなる。新しい単語の意味を、自分で文脈から推測してから辞書で確認する作業は、苦労を伴うが記憶に残る。一方、ChatGPT に『この単語の意味は』と尋ねて即答を得る作業は、楽だが記憶に残りにくい。文法の問題を解く前にルールを思い出す作業は、苦労を伴うが定着する。一方、ChatGPT に解答を出してもらう作業は、楽だが定着しにくい。苦労の機会が省かれる、という意味である。
『自分で取り出す苦労』が記憶に効くことは、Roediger と Karpicke (2006) のテスト効果の研究でも繰り返し示されてきた。テスト効果は testing effect とも呼ばれ、思い出す練習が見直しより記憶に効く、という考え方である。一度学んだ内容を後でテストの形で思い出すと、ただ見直すより記憶が長く残る、という結果である。ChatGPT に答えを出してもらう作業は、思い出す練習の機会を奪う。
学習の設計の意味では、ChatGPT を使う前に、まず自分で考える時間を設ける『先取りの自助』の手順が有効である。新しい単語は先に文脈から推測する。文法の問題は先に自分の答えを出す。作文は先に書ききってから添削にかける。この順番にすると、苦労の機会を確保しつつ、AI の利便も使える。
逆に、最初から ChatGPT に頼る学習は、楽だが長期の定着では不利になる。短期の進捗は速く感じるが、半年後に記憶が抜けやすい構造である [E13]。長期の成果を見据えるなら、苦労の機会を意図的に残す設計が必要である。
大人の現実解 = 4 ステップ意思決定モデル

結局どう使い分ければいいですか?

Step1 で伸ばす軸を 1 行で決め、Step4 で 3 ヶ月後の指標を先に書くのが Bjork 2011 の研究と整合する設計です。
ここまでの研究の知見を、大人の学び直しの意思決定に落とし込みたい。4 つのステップで考える枠組みを提案する。
Step1 は『何を伸ばすか』の特定である。選択肢は概ね 5 つに整理できる。作文の質、文法の理解、語彙の量、発音の正確さ、流暢な会話、である。この 5 つから何を最優先で伸ばすかを 1 行で決める。ここを決めずに ChatGPT を使うと、得意な軸にも苦手な軸にも一律で頼ってしまい、苦手の軸で時間を浪費する結果になる。
Step2 は『ChatGPT が得意な軸だけ』に使う、という割り切りである。作文の添削と採点は強い軸である [E04][E05][E06]。生徒のレベルに合わせた個別の説明と例文の生成も強い [E03][E07]。心理的なハードルを下げる練習の場としても使える [E01][E02][E08]。これら 3 つの軸では、ChatGPT を主要なツールにしていい、という判断ができる。
Step3 は『苦手な軸は別のツールで補う』設計である。生身の意味のすり合わせと発音の練習は、人間の相手や音声のツールで補う [E09][E10][E11]。事実と違う『もっともらしい嘘』への対策は、別の信頼できる情報源で照合する作業を入れる [E12]。自分で組み立てる苦労を残すために、ChatGPT に尋ねる前に自分で考える時間を設ける『先取りの自助』を導入する [E13]。苦手な軸を ChatGPT に任せないことが、長期の効率を守る鍵である。
Step4 は『3 ヶ月後の検証の指標』を先に書いておくことである。TOEIC の点、録音した発音の自己評価、字数の自由作文の質、を 3 ヶ月後の比較の基準にする。先に書いておかないと、ChatGPT を使った学習が『楽だから』だけで続き、効果の検証が後回しになる。Mizumoto と Eguchi (2023) の作文採点の知見は、自由作文の質を経時で見る自己評価にも応用できる [E05]。
3 つの失敗のパターンも整理しておきたい。
失敗 A は『全部 ChatGPT に置き換える』である。発音と生身の対話と自分で組み立てる苦労、の 3 つを ChatGPT に任せると、短期の進捗は速いが長期の伸びが止まる [E09][E10][E13]。
失敗 B は『hallucination を検証しない』である。文法の説明や例文を鵜呑みにすると、誤った知識が積み上がる。批判的に検証する作業を必ず入れる [E12]。
失敗 C は『検証の指標を後から決める』である。先に基準を書かないと、効いているかどうかの判断ができないまま時間だけが過ぎる。3 ヶ月後の比較の基準を、学習を始める前に書いておく [E05]。
まとめ
ChatGPT が英語学習に効くかは『何を伸ばすか』で答えが変わる [E01]。得意な軸は 3 つ、作文の添削と採点 [E05]、個別の指導と例文 [E03]、心理的なハードルの低減 [E08]、である。苦手な軸も 3 つ、生身の意味のすり合わせ [E10]、事実と違う『もっともらしい嘘』 [E12]、自分で組み立てる苦労の喪失 [E13]、である。大人の現実解は『得意な軸だけ』に使い、苦手な軸は別のツールや人間で補う設計である。検証の指標を先に書いてから始めると、楽だけで時間を浪費するパターンを防げる。
参考文献
- Kohnke, L., Moorhouse, B. L., & Zou, D. (2023). ChatGPT for language teaching and learning. RELC Journal, 54(2), 537-550.
- Hwang, G.-J., & Chang, C.-Y. (2023). A review of opportunities and challenges of chatbots in education. Computers and Education: Artificial Intelligence, 4, 100118.
- Pesovski, I., Santos, R., Henriques, R., & Trajkovik, V. (2024). Generative AI for customizable learning experiences. Education Sciences, 14(2), 210.
- Yan, D. (2023). Impact of ChatGPT on learners in a L2 writing practicum: An exploratory investigation. Education and Information Technologies, 28, 13943-13967.
- Mizumoto, A., & Eguchi, M. (2023). Exploring the potential of using an AI language model for automated essay scoring. Research Methods in Applied Linguistics, 2(2), 100050.
- Barrot, J. S. (2023). Using ChatGPT for second language writing: Pitfalls and potentials. Assessing Writing, 57, 100745.
- Kasneci, E., Sessler, K., Küchemann, S., et al. (2023). ChatGPT for good? On opportunities and challenges of large language models for education. Learning and Individual Differences, 103, 102274.
- Yashima, T. (2009). International posture and the ideal L2 self in the Japanese EFL context. In Z. Dörnyei & E. Ushioda (Eds.), Motivation, Language Identity and the L2 Self (pp. 144-163). Multilingual Matters.
- Long, M. H. (1996). The role of the linguistic environment in second language acquisition. In W. C. Ritchie & T. K. Bhatia (Eds.), Handbook of Second Language Acquisition (pp. 413-468). Academic Press.
- Mackey, A., & Goo, J. (2007). Interaction research in SLA: A meta-analysis and research synthesis. In A. Mackey (Ed.), Conversational Interaction in Second Language Acquisition (pp. 407-452). Oxford University Press.
- Loewen, S., & Sato, M. (2018). Interaction and instructed second language acquisition. Language Teaching, 51(3), 285-329.
- Bender, E. M., Gebru, T., McMillan-Major, A., & Shmitchell, S. (2021). On the dangers of stochastic parrots: Can language models be too big? In Proceedings of FAccT ’21 (pp. 610-623).
- Bjork, E. L., & Bjork, R. A. (2011). Making things hard on yourself, but in a good way: Creating desirable difficulties to enhance learning. In Psychology and the Real World (pp. 56-64). Worth Publishers.
FAQ
Q1. ChatGPT で英語の作文の添削をしてもらうのは信頼していいですか。
ある程度信頼してよいです。Mizumoto と Eguchi (2023) は ChatGPT の英作文の採点が人間の採点と高い相関 r=.83 で一致することを示しました [E05]。Yan (2023) と Barrot (2023) も同様にフィードバックの品質と作文の修正後の質の向上を報告しました [E04][E06]。ただし鵜呑みにせず、別の信頼できる情報源で文法のルールを確認する作業を入れると安全です。
Q2. ChatGPT で英会話の練習をすると話せるようになりますか。
量を稼ぐ場としては有効ですが、生身の対話の代わりにはなりません [E09][E10][E11]。Long の相互行為仮説と Mackey と Goo のメタ分析 (d=0.92) は、生身の対話の連鎖が習得を加速させると示しています。ChatGPT で慣らした後で、人間の相手と話す機会を必ず組む 2 段階の設計が有効です。
Q3. ChatGPT の文法の説明や例文を信じていいですか。
そのまま信じるのは危険です。Bender ら (2021) は LLM がもっともらしい嘘を返す構造的なリスクを指摘しています [E12]。文法の説明や例文は、信頼できる文法書や辞書で必ず照合してください。重要度が高い文章 (仕事のメール、契約の書類) では、最終の判断を AI に任せない方針が安全です。
画像: いらすとや (https://www.irasutoya.com/) より
greencafe 編集部 — 公開された 13 件の研究エビデンス (tier 1: 13) を横断分析・再構成

Comments