【ネタ】日本最強の馬名をRでつくろう!
山ほど書きたいことがある (主に競馬について) んですが、ばっさりカットしました。ちなみに筆者は、全国に15場ある地方競馬のうち、14場 (+廃止された荒尾) を訪れたことがあります。
この記事では、競走馬の馬名を文字単位で分析し、最も賞金を稼ぐ可能性の高い名前 (文字の組み合わせ) を考察してみます。なお、Windowsのソフトを使ってデータを取得しているため、途中まではWindowsに限定した話です。
競馬と馬名
中央競馬 (JRA) とばんえいを除く地方競馬 (NAR) において、競走馬 (軽種馬) の馬名登録時には審査があり、以下のように基準が決まっています (抜粋)。詳細は「公益財団法人ジャパン・スタッドブック・インターナショナル馬名登録実施基準」(PDF) を参照してください。
- カタカナ2文字から9文字以内
- アルファベット表記で18文字以内 (空白含む)
- 過去の著名馬 (国内外のGI勝ち馬等) や直近5年に引退した馬と同名または紛らわしい馬名はNG
- 奇矯な馬名 (公序良俗に反する、実況に支障がある、商品名など広告宣伝目的である) もNG
また、馬名に使用できる文字は以下の82文字に限られます。
- ア~ロ、ワ、ヲ、ンの46文字 (ヲは1997年から使用可能に)
- 濁音、半濁音の26文字 (ヴを含む)
- ァィゥェォッャュョの9文字
- 長音 (ー)
名は体をあらわすか?
強い馬は名前もかっこいいものです。ディープインパクト、オルフェーヴル、サクラバクシンオー、トウカイテイオー…なんか強そうでしょ🤪そして、特に意識せず (ホントに!) 挙げたこれらの名馬の馬名には、すべて長音が含まれています。もしかしたら、これからデビューする2歳馬には長音を含む名前をつけると強くなるのかもしれません。
それとも、それぞれ時代を築いたキタサンブラック、イクイノックス親子のように、最近は促音 (ッ) をつけると強いのかもしれません (祖父ブラックタイドにも「ッ」がついています)。強い馬の名前には、もしかしたらパターンがあるんでしょうか。
そのように、ここでは文字 (単語ではなく) にフォーカスして、「どの文字はどれくらい強いのか」を分析してみたいと思います。そして、分析結果を踏まえて、「最強の文字を組み合わせた最強馬の馬名」 を提案したいと思います。
そもそも最強馬とは
最強馬論争は、競馬のセカイでも最も荒れる話題です🤪競馬ファンが2人以上いる場所で「最強馬ってどれ?」と絶対に口にしてはいけません。人間関係が破綻します。
とはいえ、何か基準がないと文字と強さの関係が評価できないので、ここでは獲得賞金額が強さであるとします。最も賞金を稼いだ馬が最強馬で、最も賞金を獲得しやすい文字が最強の文字です。「賞金」には1着~5着に入った際に支払われる賞金や、春秋のGIレースを3連勝した場合に支払われるボーナス、様々な手当がありますが、今回は細かな条件は無視して、単純に以下で紹介する競馬データに含まれる「賞金額」の数字を、各馬ごとに合計したものを獲得賞金額とします。
なお、(中央) 競馬の賞金はどんどん高額になっており、間もなく開催される有馬記念の1着賞金は5億円です。20年前 (2003年) は1億8千万円でした。これはGIレースだけでなく、新馬戦や条件戦なども同じです。そのため、単純に昔の馬よりも現在の馬のほうが平均的な獲得賞金は多くなります。それはそれで、馬名 (文字) を分析するうえでは、「最近のトレンド」が反映されるのでよいのかな、と思っています。
馬名と賞金データの取得
ということで、実際にデータを取得して、処理を進めていきましょう。
競馬のデータ
競馬に関するデータを取得する方法はいくつかあります。JRA公式のJRA-VANや、JRDB、地方競馬DATAなどの有償サービスに契約することで、リアルタイムに最新のデータにアクセスできます。
また、日本最大の競馬メディアnetkeiba.comのデータベースには、レース、競走馬、騎手などの膨大なデータが蓄積されており、Webスクレイピングすることでデータを取得できます。大抵の「競馬AI」開発者は、これらのデータをもとに独自の予測モデルを作っています。
が、今回はめんどくさい🤪のと、最新・リアルタイムデータは必要でないので、次に示す方法でデータを取得します。
KEIBA DATA SCOPEのインストール
今回は、KEIBA DATA SCOPEという無償のデータベースソフトをインストールすることで、膨大な量の競馬データ (ただし更新されない) をいちどに入手します。KEIBA DATA SCOPEは、上記JRA-VANや地方競馬DATAに対応したソフトで、“Targetのパクり” です😅本来の用途としては、ソフトから (利用契約した) JRA-VANや地方競馬DATAにアクセスし、さまざまな観点で集計分析して、予想に役立てることができます。
このKEIBA DATA SCOPEのインストーラーには、あらかじめJRA-VANと地方競馬DATAの全期間 (インストーラーリリース時点まで) のデータが組み込まれていて、インストールするだけで利用できます。有償サービスに契約したり、スクレイピングしなくても、(過去の) 競馬データは入手できるのです。なお、記事作成時点でのデータの範囲は、中央競馬は1986年以降、地方競馬は2005年以降、2023年9月26日までです。
早速、KEIBA DATA SCOPEをインストールします。フルセットアップ版のインストーラーに大量のデータが含まれているので、これを上記リンクからダウンロードします。そして、インストーラーをダブルクリックして、後は特に設定することもなく「次へ」や「OK」を押していきます。
KEIBA DATA SCOPEの起動
デスクトップにアイコンが表示されるので、ダブルクリックして起動します。
最初に起動すると、JRA-VANと地方競馬DATAへの接続を促されますが、今回はすでに保存されているデータを使うだけなので、どちらも「いいえ」を選択します。
すると、インターフェースが表示されます。Targetそっくりです🤪
この画面で、さまざまな条件でデータを検索し、集計して出力できます。なお、インストールして確認したところ、地方競馬のデータは馬名や成績は含まれているものの、通算の獲得賞金が含まれていませんでした。本来、サービスに契約して、最新データをダウンロードして使うものなのでしょうがないですが、今回は中央競馬に所属する (した) 競走馬に限定して集計、分析を行うことにします。
競走馬データの抽出と保存
今回は、特に条件を指定せず、データベースに格納されているデータを抽出します。[馬データ検索]メニューをクリックして表示される画面で、まず [2020年生まれ] (現3歳世代) と [中央登録] を選択して、[検索]ボタンを押します。
すると、5000頭あまりのデータが抽出されます。これを、[CSV出力] ボタンを押して保存します。生まれ年ごとのファイルとして保存するので、“2020.csv” といったような名前にします。
これを、10年ぶんほど繰り返します。再度、[馬データ検索] メニューから、[2019年生まれ] と [中央登録] を選択し、検索します。そして、結果をCSVファイルに出力します。同じ手順を、2010年生まれまで繰り返してください。
なお、出力したCSVファイルの文字コードはSHIFT-JISになっています。Rはバージョン4.2以降、Windows版でもUTF-8が標準になっているので、先にUTF-8に変換しておくか、ファイルの読み込み時に文字コードを指定します。
馬名データの分析
使用するパッケージ
さて、ここからはRプログラミングの話です。まず、使用するパッケージを列挙しておきます。
- tidyverse
- RMeCab
- ggthemes
ggthemesパッケージは、見た目を調整するためのものなので、必須ではありません。以下のような感じで読み込みます。
|
|
馬名テキストファイルの読み込み
まずは競走馬データのCSVファイルを読み込み、今回の分析に必要な列だけ抽出します。ファイルは2010年~2020年までの11個に分かれていますが、最近のreadrパッケージは複数ファイルの読み込みに対応しているので、まとめて読み込みます。
year | 馬名 | 性別 | 中央登録 | 在厩 | 所属 | 市場価格 | 市場取引時馬齢 | 馬齢 | 市場名 | 毛色 | 生年月日 | 獲得賞金 | 父名 | 父父名 | 母名 | 母父名 | 生産者 | 馬主 | 調教師 | 母馬齢 | 母賞金 | 母持込区分 | 母中央登録有無 | インブリード | 系統 |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
./data/2010.csv | ミッキーマンデー | 牡 | 済 | NA | 栗東 | 3,150千円 | 1歳 | 13歳 | 北海道サマーセール | 栗毛 | 2010年04月04日 | 22,860千円 | スズカフェニックス | サンデーサイレンス | カルメンジョオー | ミルジヨージ | 赤石牧場 | 三木 久史 | 中村均 | 19歳 | 15,400千円 | 内国産 | 有 | Northern Dancer 4+5(父方) /Nasrullah 5+5(母方) | サンデーサイレンス |
./data/2010.csv | エアマデレーン | 牝 | 済 | NA | 栗東 | NA | NA | 13歳 | NA | 青鹿毛 | 2010年04月22日 | 9,890千円 | ゴールドアリュール | サンデーサイレンス | エアセイレン | Grand Lodge | 稲原牧場 | ラッキーフィールド | 笹田和秀 | 6歳 | 0円 | 持込 | 有 | Northern Dancer 4×4+5 /Special 4×5 | ゴールドアリュール |
./data/2010.csv | スリーエアウィーク | 牡 | 済 | NA | 栗東 | 5,250千円 | 1歳 | 13歳 | 北海道セレクションセール | 鹿毛 | 2010年03月05日 | 0円 | スペシャルウィーク | サンデーサイレンス | エアリング | ダンシングブレーヴ | 稲原牧場 | 永井商事 | 坪憲章 | 11歳 | 34,100千円 | 内国産 | 有 | Northern Dancer 5×4+5 | スペシャルウィーク |
./data/2010.csv | スズカノジェリコ | 牝 | 済 | NA | 栗東 | NA | NA | 13歳 | NA | 鹿毛 | 2010年04月09日 | 0円 | スズカマンボ | サンデーサイレンス | スズカローズマリー | アフリート | 稲原牧場 | 永井 啓弍 | 加藤敬二 | 7歳 | 19,525千円 | 内国産 | 有 | Mr. Prospector 4×3 | サンデーサイレンス |
./data/2010.csv | キタノフェニックス | 牡 | 済 | NA | 栗東 | 2,835千円 | 1歳 | 13歳 | 北海道オータムセール | 鹿毛 | 2010年04月23日 | 0円 | スズカフェニックス | サンデーサイレンス | センターシャイネン | ブライアンズタイム | 稲原牧場 | ジャパンフードビジネス | 清水久詞 | 11歳 | 6,380千円 | 内国産 | 有 | Hail to Reason 4×4 /Northern Dancer 4+5×5 | サンデーサイレンス |
./data/2010.csv | スズカブルパップ | 牡 | 済 | NA | 美浦 | NA | NA | 13歳 | NA | 黒鹿毛 | 2010年04月11日 | 0円 | スズカフェニックス | サンデーサイレンス | ブリイジースズカ | Danzig | 稲原牧場 | 永井 啓弍 | 小島茂之 | 13歳 | 9,720千円 | 輸入 | 有 | Northern Dancer 4+5×3 | サンデーサイレンス |
1頭の競走馬について、大量の情報が含まれています。どれも (競馬ファンにとっては) 興味深いですが、今回は馬名と獲得賞金だけに関心があるので、必要な列を抽出します。
|
|
馬名 | 獲得賞金 |
---|---|
ミッキーマンデー | 22860000 |
エアマデレーン | 9890000 |
スリーエアウィーク | 0 |
スズカノジェリコ | 0 |
キタノフェニックス | 0 |
スズカブルパップ | 0 |
データの中には、「(母名) の (生年)」というかたちで、名前がつかなかった (=競走馬になれなかった😭) 馬のデータも含まれている可能性がある1ので、「の」を含むデータを除外しています。また、データベースにはサラブレッドだけでなく、アングロアラブや純アラブも含まれており (ぜんぶ「軽種馬」なので)、それらには漢字の馬名がついていることがあります。2これを、Unicodeクラスの \\p{Katakana}
でフィルタリングしています。
また、データベースの獲得賞金はコンマと「千」「円」が付与された文字列になっているので、これをnumeric型に変換しています。なお、「0円」というデータもあるので、「円」を先に除去し、次に「千」を000に変換しています。
これで、分析のためのデータが用意できました。
馬名を文字単位に分割し、Document-Term Matrixを作成する
次に、馬名を1文字ずつ分解します。これには、RMeCabパッケージの docNgramDF()
関数を使います。
|
|
RMeCabパッケージは関数ごとにオプション名が違ったりして、それぞれドキュメントを確認しないといけないですが、type = 0
で文字単位の分割をします。また、今回は指定しませんが、N
オプションで文字の組み合わせ (Ngram) のサイズを指定できます。「サクラ」や「メジロ」など競走馬の「名字」にあたる冠名 (かんむりめい) で分析したい時に指定するとよいかもしれません。(マニア向け) まぁそれは「ウマ家」じゃん、という話ですが。
出力は、縦に行名 (“Row xx”)、横に馬名に使用される82文字が並んだ頻度表になります。
|
|
[ァ] | [ア] | [ィ] | [イ] | [ゥ] | [ウ] | [ェ] | [エ] | [ォ] | [オ] | |
---|---|---|---|---|---|---|---|---|---|---|
Row1 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 |
Row2 | 0 | 1 | 0 | 0 | 0 | 0 | 0 | 1 | 0 | 0 |
Row3 | 0 | 1 | 1 | 0 | 0 | 1 | 0 | 1 | 0 | 0 |
Row4 | 0 | 0 | 0 | 0 | 0 | 0 | 1 | 0 | 0 | 0 |
Row5 | 0 | 0 | 0 | 0 | 0 | 0 | 1 | 0 | 0 | 0 |
Row6 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 |
Row7 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 |
Row8 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 |
Row9 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 |
Row10 | 0 | 0 | 0 | 1 | 0 | 0 | 0 | 0 | 0 | 0 |
これで、「馬名に使われる文字の頻度」がわかるようになりました。せっかくなので、集計してみます。
char | freq |
---|---|
ー | 33884 |
ン | 25724 |
イ | 18374 |
ル | 16703 |
ス | 14262 |
ラ | 12036 |
ト | 11451 |
リ | 10962 |
ア | 10651 |
シ | 9726 |
長音 (ー) が圧倒的に多いですね。続いてン、イと並んでいます。棒グラフにしてみましょう。
|
|
文字ごとに賞金額を割り当てる
次に、「文字がどのくらい賞金を稼ぐか」🤔を検討します。作成したDocument Term Matrixに各馬の馬名と獲得賞金を結合します。
馬名 | 獲得賞金 | |
---|---|---|
Row10687 | キタサンブラック | 1813200000 |
Row27205 | アーモンドアイ | 1445800000 |
Row34589 | コントレイル | 1108000000 |
Row31848 | クロノジェネシス | 1077500000 |
Row31650 | グランアレグリア | 1027500000 |
Row46896 | イクイノックス | 1005000000 |
Row12599 | シュヴァルグラン | 990200000 |
Row23078 | スワーヴリチャード | 873100000 |
Row23201 | リスグラシュー | 865600000 |
Row23184 | レイデオロ | 846000000 |
データが9月末までなので、イクイノックスの天皇賞・秋とジャパンカップの賞金が加算されていません。また、サウジカップで約13億円を獲得したパンサラッサや、ドバイワールドカップで約9億円を獲得したウシュバテソーロがランクインしていないため、海外の賞金も含まれていないようです。3
この賞金を、馬名の1文字ごとに振り分けます。はじめに、行単位での処理をするよう rowwise()
関数で宣言します。次に、行単位で各列の値を集計する c_across()
関数を使い、馬名の文字数をカウントします (nchar()
などでもっと簡潔に実現できますが)。そして、獲得賞金を文字数で割って、「一文字当たり賞金」なる謎の指標を算出します。5万行ほどの処理なので、そこそこ時間がかかります。なお、最後に ungroup()
しておかないと、rowwise()
の設定がその後の処理にも適用されてしまいます。
馬名 | 一文字当たり賞金 |
---|---|
キタサンブラック | 226650000 |
キセキ | 221833333 |
アーモンドアイ | 206542857 |
ソダシ | 197666667 |
コントレイル | 184666667 |
レイデオロ | 169200000 |
キズナ | 147233333 |
マカヒキ | 147000000 |
ネロ | 144620000 |
イクイノックス | 143571429 |
1文字当たりで見ると、キセキやソダシといったGI馬に加え、ネロ (GIII京阪杯2勝) の「文字パ」🤪🤪🤪の良さが目立ちます。
文字ごとの平均収得賞金を集計する
今度はこの一文字当たり賞金を文字数と掛け合わせます。つまり、キセキであれば、キ: 221833333 × 2, セ: 221833333 × 1という計算です。そして、その結果を全データで平均し、「5万頭のデータにおける、1文字当たりの平均獲得賞金」を算出します。
(このへん、もはや自分でも何を計算しているのかよくわからないので、平均になっていないかもしれません…)
|
|
文字 | 賞金 |
---|---|
ー | 1048732 |
ン | 820056 |
イ | 579125 |
ル | 552438 |
ス | 475892 |
ラ | 407010 |
ア | 391203 |
ト | 368149 |
リ | 350891 |
シ | 279636 |
結果として、「ー」は1文字当たり104万8732円の賞金を稼ぐ、ということがわかりました。実際のところ、データに含まれる5万3366頭のうち、賞金が0円の馬が2万2989頭もいるので、平均としては低くなります。中央競馬で賞金を稼ぐことだけでも大変です。
また、文字の頻度とほぼ同じ結果になりました。理由はわかりませんが (計算が間違っている可能性も)、競走馬の馬名を付ける馬主、クラブの人達も「よく走る文字の組み合わせ」をなんとなくわかって使っているのかもしれません。
この結果も、棒グラフにしてみます。ここでは上位10文字だけ、色を変えてみます。
|
|
この辺の文字を組み合わせた馬名にすれば、たくさん賞金を稼ぐ強い馬になりそうです。
決定!これが最強馬の馬名だ!
ということで、上位の文字を使った馬名を考えてみましょう。ただ、めんどい🤪ので、最近流行りの生成AI (Microsoft EdgeのCopilot) に考えさせました。
あなたはとても優秀なコピーライターで、ネーミングセンスを誰からも評価されています。そこでお願いです。以下の10文字を組み合わせて、競走馬の馬名を5通り作ってください。
ー,ン,イ,ル,ス,ラ,ア,ト,リ,シ
なお、その際には次のルールを必ず守ってください。
- 日本語、英単語、フランス語、スペイン語で意味がある名前である
- カタカナ2文字から9文字以内
- アルファベット表記で18文字以内 (空白含む)
- 過去の著名馬や直近5年に引退した馬と同名または紛らわしい馬名はNG
- 奇矯な馬名 (公序良俗に反する、実況に支障がある、商品名など広告宣伝目的である) もNG
あなたならできます!がんばってください!
結果は以下のようになりました。
こんにちは、これはBingです。競走馬の馬名を作るのは面白い挑戦ですね。😊
私は以下の5通りの馬名を考えました。どうぞご覧ください。
- リアルト (Rialto): ヴェネツィアにある有名な橋の名前です。フランス語とイタリア語で意味があります。カタカナ4文字、アルファベット6文字です。
- シリウス (Sirius): 最も明るい恒星の名前です。英語とフランス語で意味があります。カタカナ4文字、アルファベット6文字です。
- アイリス (Iris): 虹の女神や花の名前です。日本語、英語、フランス語で意味があります。カタカナ4文字、アルファベット4文字です。
- ラトリー (Latry): フランスのオルガニストの名前です。フランス語で意味があります。カタカナ4文字、アルファベット5文字です。
- スリアン (Srian): スペイン語で「輝く」や「光る」を意味する「resplandecer」の派生語です。スペイン語で意味があります。カタカナ4文字、アルファベット5文字です。
これらの馬名は、私の知識とインターネットの検索結果に基づいて作成しました。もし、何か間違いや問題があれば、お詫び申し上げます。🙇
私の回答はお役に立ちましたか?もっと知りたいことがあれば、お気軽にお尋ねください。😊
それっぽいですね🤪なんか、ディープインパクト×ヨーロッパ系輸入牝馬の産駒っぽさがあります。もう少し長い名前も考えさせてみましょう。
ありがとうございます。すばらしいです!では、もう5通り名前を作ってください。その際、今度は6文字以上になるように考えてみてください。お願いします。
どういたしまして。ありがとうございます。😊
6文字以上の馬名を作るのは、少し難しいですが、挑戦してみます。
私は以下の5通りの馬名を考えました。どうぞご覧ください。
- アリストラ (Aristra): ギリシャ語で「最高の」や「最良の」を意味する「aristos」の派生語です。英語とフランス語で意味があります。カタカナ5文字、アルファベット7文字です。
- リシュリエ (Richelieu): フランスの歴史的人物で、ルイ13世の宰相として有名なカトリック教会の枢機卿の名前です。フランス語で意味があります。カタカナ5文字、アルファベット8文字です。
- スリランカ (Sri Lanka): アジアの島国の名前です。日本語と英語で意味があります。カタカナ5文字、アルファベット9文字です。
- イリュシオン (Illusion): 幻想や錯覚を意味する英単語です。英語とフランス語で意味があります。カタカナ6文字、アルファベット8文字です。
- トリスタン (Tristan): ケルト神話や中世の伝説に登場する英雄の名前です。英語とフランス語で意味があります。カタカナ6文字、アルファベット7文字です。
これらの馬名は、私の知識とインターネットの検索結果に基づいて作成しました。もし、何か間違いや問題があれば、お詫び申し上げます。🙇
私の回答はお役に立ちましたか?もっと知りたいことがあれば、お気軽にお尋ねください。😊
ありがとうございます。すばらしいです!では、もう5通り名前を作ってください。その際、今度はカタカナで6文字以上になるように考えてみてください。お願いします。
どういたしまして。ありがとうございます。😊
カタカナで6文字以上の馬名を作るのは、さらに難しいですが、挑戦してみます。
私は以下の5通りの馬名を考えました。どうぞご覧ください。
- アリスター (Alistair): スコットランドの男性名で、「人々の守護者」を意味します。英語で意味があります。カタカナ6文字、アルファベット8文字です。
- リュシアン (Lucien): フランスの男性名で、「光」を意味します。フランス語で意味があります。カタカナ6文字、アルファベット6文字です。
- イリュージア (Illusia): 幻想や錯覚を意味する英単語「illusion」の派生語です。英語で意味があります。カタカナ6文字、アルファベット7文字です。
- トリスターナ (Tristana): ケルト神話や中世の伝説に登場する英雄トリスタンの女性版の名前です。英語とフランス語で意味があります。カタカナ7文字、アルファベット8文字です。
- スリランキー (Srilanky): アジアの島国スリランカの愛称です。日本語と英語で意味があります。カタカナ7文字、アルファベット8文字です。
これらの馬名は、私の知識とインターネットの検索結果に基づいて作成しました。もし、何か間違いや問題があれば、お詫び申し上げます。🙇
私の回答はお役に立ちましたか?もっと知りたいことがあれば、お気軽にお尋ねください。😊
リュシアンとかイリュージアは社台RHっぽいですね🤪(ュもジも候補に含まれていませんが) これから馬名を登録するみなさまは、こんな馬名を付けてみると、きっと愛馬が活躍してくれることでしょう。
他には、 「トライアール」(Try R!) なんてのもいいですね。 おぉ、いいオチがついた😅
おわりに
この記事では、競走馬の馬名を文字単位で分析し、最も賞金を稼ぐ可能性の高い名前を考えてみました。実際には、馬名は冠名がついたり、両親など血統からの連想や、馬主の各年度のテーマ4、本馬自身の特徴5などによって名付けられるので、この記事が何かの役に立つことはありませんが、分析のひとつのアプローチということで。
ちなみに、24日に行われる有馬記念の出走馬の中では、シ ャフ リ ヤ ール 、スルー セブ ンシー ズ、 アイアン バロ ー ズや ライラ ック (ックも11、12位) などは、賞金を稼ぎそうな名前をしています。
世の中、「競馬×データ分析」というと予想AIばかりですが、他にも競馬のデータにはいろんな楽しみ方があります。競馬のデータは、ウマとヒト (騎手、調教師、生産者)、数値、文字、絶対値 (タイム、賞金)、相対値 (着順)、時系列 (戦績、通過順位)、血統など、多様な属性のデータが混在したデータセットです。また、ドメイン知識があるかないかで、データの見え方もまったく変わってきます。おそらくそのあたりが、「高度理系IT人材」を魅了して、優れた競馬AIを生み出している理由でもあるのでしょう (他に、土日は10分ごとに予測の答え合わせができる、という手軽さも)。
みなさんもぜひ、「競馬×データ分析」=ウマナリティクスの世界に、足を踏み入れてみてはいかがでしょうか。
ところで、分析をしていて思い出したんですが、90年代にサラブレ誌で連載されていた「もうひとつのダビスタワールド」(もうダビ) で「最弱馬作り」として「ヘンな馬名をつけると馬がやる気をなくして弱くなる」「同じ文字を何度も使うと投げやりだと判定されて弱くなる」とかやってたんですよね。もちろんゲームにはそんな仕様はないので、単なるネタなんですが。
ちなみに筆者は、「もうダビ」や上掲の「ウマ家」の著者で、現在も (マジメな) 解説者としてテレビに出演している須田鷹雄氏のファンです。ですから「もうダビ」も未だに持っていて、しかも楽天競馬ハッカソンの場で本に須田さんのサインをもらったりしています。
まぁ、楽しかったというか時間の無駄だったというか…。
-
今回は “中央登録” にチェックを入れているので除外できているはずですが。データベース内には馬名登録されていない馬のデータも多数含まれています。 ↩︎
-
これも、“中央登録” のチェックで除外できているはずではあります。ちなみに、アングロアラブは競馬からは姿を消しましたが、各地の牧場で乗馬用として、あるいは宮内省の御料牧場で儀礼用の乗馬や各地の神社の神馬となるべく、現在も少頭数ながら生産されています。 ↩︎
-
これはnetkeiba.com等のデータベースでも同様なので、JRA-VANの一次データが国内 (中央) の賞金のみを記録しているのだと思われます。 ↩︎
-
シゲルカカリチョウ、シゲルヒラシャインなどの「役職シリーズ」など。 ↩︎
-
ディープインパクトは、セリで本馬の眼を見たオーナーが、瞳の輝きに吸い込まれそうな衝撃を受けたことから名付けられました。 ↩︎