結論から言う
初心者に一番おすすめなのは競艇だ。
理由は3つある。
- データが最も整っている:公式サイトから出走表・モーター成績・展示タイムをほぼ無料で取得できる
- 変数が少なく設計しやすい:6艇・6コース固定という制約が、モデル設計をシンプルにする
- レース数が多く、学習データが速く集まる:年間3,700レース以上。競馬の約3倍のペースで実績を積める
私はこの3種類のAIを約1年かけて開発・運用してきた会社員エンジニアだ。本記事では同じ条件・同じスキルセットで3競技に取り組んだ経験をもとに、「どれから始めるべきか」を数字で整理する。
比較の前提条件
フェアな比較のために、以下の条件を統一した。
| 項目 | 設定値 |
|---|---|
| 開発者スキル | Python中級(pandas・scikit-learn経験あり) |
| 予算 | 月3万円以内(データ購入費・サーバー費込み) |
| モデル | XGBoostをベースに特徴量エンジニアリング |
| 評価期間 | 各競技6ヶ月以上の運用データ |
| 賭け方 | 小額固定(1レース500〜1,000円相当) |
この条件を外れた環境(大量資金・有料データ・機械学習専門家)なら結論が変わる可能性はある。あくまで「個人開発・副業の延長線上でやってみた」話として読んでほしい。
比較表:3競技を数値で並べると
| 指標 | 競艇 | 競馬 | 競輪 |
|---|---|---|---|
| データ取得難易度 | ★★☆☆☆(低) | ★★★☆☆(中) | ★★★★☆(高) |
| 主な特徴量数 | 約25変数 | 約60変数 | 約40変数 |
| モデル精度(検証精度) | 72% | 65% | 68% |
| 主な的中率 | 3連単19% | 単勝32% | 2車単41% |
| 回収率(6ヶ月平均) | 97% | 81% | 88% |
| 開発期間(初版完成まで) | 約3ヶ月 | 約5ヶ月 | 約4ヶ月 |
| データ無料取得の可否 | ほぼ可能 | 一部有料が必要 | やや難しい |
| 荒れやすさ | 低〜中 | 高 | 中〜高 |
競艇のAI予想:シンプルさが最大の武器
競艇の特徴
競艇(ボートレース)は1レースに6艇しか出走しない。コースも1〜6コースに固定されており、「インコース(1コース)が圧倒的に有利」という明確なバイアスが存在する。この構造的な偏りが、AIにとって学習しやすい環境を作っている。
私が競艇AIで使った主な特徴量はこの5カテゴリだ。
- 選手の成績データ:全国勝率・当地勝率・2連率・3連率
- モーター・ボートの評価:モーター2連率・整備履歴
- 展示データ:展示タイム・展示旋回・スタートタイミング
- コース・気象条件:枠番・当日の風速・風向き・波高
- スタート傾向:選手ごとのフライング・出遅れ歴
これだけのデータが、ボートレース公式サイトおよびBoatRace公式APIからほぼ無料で取得できる。有料データなしでこのレベルの特徴量を揃えられる競技は、公営ギャンブルの中で競艇だけだ。
6ヶ月間の運用結果では、3連単の的中率19%・回収率97%を記録した。3連単というのは1着〜3着の組み合わせをすべて当てる賭け方で、理論上の的中率は約0.8%(120通りのうち1つ)だ。それを19%まで高められたのは、データの質と量が担保されていたからだと思っている。
競艇AIが向いている人
- 公営ギャンブルAI開発を初めて試みる人
- データ収集・前処理に時間をかけたくない人
- 3ヶ月以内に「動くもの」を作りたいエンジニア
- 回収率100%超えを最終目標として段階的に精度を上げたい人
競馬のAI予想:データ量が豊富な分、沼が深い
競馬の特徴
競馬は公営ギャンブルの中で最もデータが豊富で、かつ最も複雑だ。出走頭数が最大18頭、コースは芝・ダート・距離・競馬場ごとに特性が異なり、特徴量の候補が無限に出てくる。「何を入れるか」ではなく「何を捨てるか」の意思決定が開発の大半を占める。
私が競馬AIで最終的に使った特徴量は約60変数だ。代表的なものを挙げると:
- 馬の能力指標:過去5走の着順・タイム・着差・上がり3ハロン
- コース適性:芝・ダート別成績・距離別成績・競馬場別成績
- 騎手・調教師の成績:騎手の当該コース勝率・調教師の直近10走成績
- 血統データ:父・母父の芝ダート適性(有料データが必要になるケースが多い)
- 前走からの変化:前走比較でのクラス変化・斤量変化・休養期間
データ取得面では、有料の競馬データベース(JRA-VAN・競馬ラボ等) が事実上必要になる場面が出てくる。無料で取得できるデータだけでは、血統情報や詳細なタイムデータに限界がある。月額3,000円〜5,000円程度の出費を覚悟する必要があった。
単勝的中率32%・回収率81%という結果になった。単勝は当てやすい分、高配当が出にくい。回収率が81%にとどまった最大の原因は「人気馬を買いすぎた」ことだと分析している。AIが人気馬を過大評価する傾向は競馬特有の問題で、これを補正するための工夫が開発期間を大きく伸ばした。
競馬AIが向いている人
- 競馬のデータ分析そのものに興味がある人(過程を楽しめる人)
- ある程度の予算(データ費を含め月5,000円〜)を確保できる人
- 5ヶ月以上じっくり開発に取り組める人
- 血統・調教師・騎手など多変数の相互作用を分析することが好きな人
競輪のAI予想:的中率は高いが、データ収集が一番しんどい
競輪の特徴
競輪は9選手がトラックを走る競技で、選手同士の「ライン(連携)」という概念が予想の核心にある。同じ地区出身の選手が連携して走ることが多く、これを無視したモデルは著しく精度が落ちる。
2車単(1着・2着の2人を順番通りに当てる)の的中率が41%と3競技の中で最も高いのは、「同じライン内の選手が入りやすい」という構造的な傾向を学習できたためだ。ただし回収率は88%にとどまり、的中率の高さほど回収率が伸びない。これは2車単の配当倍率が低いことと、外れたときの損失が積み重なることが原因だ。
競輪AI開発で最も苦労したのはデータ取得だ。競輪公式サイトのデータ構造がレース場ごとに微妙に異なり、スクレイピングの安定稼働に約1ヶ月を費やした。特徴量として最終的に使ったのは:
- 選手の成績:勝率・2連率・3連率・得点(競輪独自の評価指標)
- ライン情報:各選手の地区・班(前走での連携履歴)
- 戦法と位置取り:逃げ・まくり・差し・追い込みの傾向
- バンク特性:競技場ごとの直線距離・バンク傾斜角度
- 直近の状態:直近5走の上がりタイム・落車・失格歴
ライン情報はテキストデータとして提供されているケースが多く、構造化して特徴量に変換する処理が最も時間がかかった部分だ。
競輪AIが向いている人
- テキストデータの前処理・自然言語的なデータ構造化が得意な人
- 競輪そのものに詳しい(ライン戦略を肌感覚で理解している)人
- 4〜5ヶ月の開発期間を確保できる人
- 的中率よりも「珍しい賭け方を研究したい」というリサーチ志向の人
それぞれのデータソースと注意点
競艇
- 公式データ:boatrace.jp(無料)
- 取得可能情報:出走表・モーター成績・展示タイム・選手成績・天気情報
- 注意点:スクレイピングはBoatRace公式の利用規約を確認すること。公式APIも提供されているが、取得できるデータ項目に制限がある場合がある
競馬
- 公式データ:JRA公式(無料・限定的)/JRA-VAN・競馬ラボ(有料)
- 取得可能情報:レース結果・出馬表・騎手成績(無料部分は限定的)
- 注意点:競馬データの商用利用は制限が多い。個人研究目的での利用と商用利用の境界線を事前に確認すること。血統データは特に権利関係が複雑
競輪
- 公式データ:keirin.jp(無料・データ構造が複雑)
- 取得可能情報:選手成績・レース結果・得点一覧
- 注意点:レース場ごとにページ構造が異なりスクレイピングの安定稼働が難しい。データが更新されるタイミングも場所によってバラつきがある。定期的なメンテナンスコストを見込む必要がある
結論と推奨:どれから始めるべきか
私の答えは一貫している。まず競艇から始めるべきだ。
理由を3点に整理する。
1. 「動くものを作る」を最短で達成できる
開発期間3ヶ月というのは、週末に3〜4時間作業した場合の目安だ。競馬(5ヶ月)・競輪(4ヶ月)と比べて1〜2ヶ月早く「とにかく予想が出る状態」を作れる。最初の成功体験がその後の開発モチベーションに直結するため、この差は大きい。
2. 回収率97%という水準は「実用の土台」になる
3競技の中で競艇の回収率が最も高いのは偶然ではない。データの質・量・構造のシンプルさがそのままモデル精度に反映されている。回収率97%はまだ負け越しだが、100%超えまでの距離が最も近い。競馬の81%・競輪の88%を100%超えに持っていくには、競艇の3〜4倍の特徴量改善が必要になると体感している。
3. 学習サイクルが速い
年間3,700レース以上が開催される競艇では、モデルの仮説検証サイクルが他競技より3倍速い。「この特徴量を追加したらどうなるか」を1週間で100件以上のデータで検証できる。競馬は週末の中央競馬だけだと年間288日・約3,000レース程度だが、芝・ダート・距離で分割すると学習データが薄くなる。
ただし、競馬や競輪に強い動機や事前知識がある人は、その競技から始める選択肢もある。AIの精度は最終的に「その競技を深く理解しているか」に左右される部分が大きいからだ。
まとめ
公営ギャンブルのAI予想は「やれば誰でも高回収率になる」という甘い世界ではない。ただ、エンジニアリングの問題として捉えると、確かに解きがいのある課題だ。
3競技を通じて共通して感じたのは、「良いデータが良いモデルを作る」という機械学習の原則がここでも変わらないということだ。特徴量エンジニアリングに費やした時間がそのままモデルの質に直結した。
副業的な視点でAI予想に興味がある人には、まず競艇で「自分のAIが予想を出す状態」を作ることをすすめる。そこから得た設計の感覚は、競馬・競輪に応用できる。3競技を全部やろうと最初から欲張らず、1つで成果の手触りをつかむことが近道だ。
*本記事は個人のAI開発・検証の体験談をまとめたものです。投資・賭けを推奨するものではありません。公営ギャンブルは20歳未満の方はご利用いただけません。データの利用は各公式サイトの利用規約に従ってください。*
関連ツールを見る
この記事で紹介したツール・サービスをまとめてチェック。
![]()