AI競馬預測大比拼：邊個模型最準？Grok爆冷？ChatGPT穩陣？

zero comment

DeepResearch競馬預測報告｜LLM徹底比較以驗證準確性

1. 導入
AI的高級信息收集功能「DeepResearch」，目前正受到廣泛關注。與傳統的AI搜索提供單一答案不同，DeepResearch能針對複雜主題進行多角度的信息收集和深層次分析，並以全面報告的形式呈現結果。這一功能使得從傳統搜索引擎中難以獲得的洞察和見解得以浮現。

本文將探討DeepResearch在競馬預測中的應用，並檢驗其潛力。當結合競馬專家的集體智慧與AI的高級分析時，競馬預測的準確性是否真的能得到提升？我們將比較多個類似服務，探索其可能性。

【結論】
Grok 【穴馬專家】
– 能夠找到潛力馬匹。在海洋S賽事中準確預測了第一和第二名。
– 也存在著不選中熱門馬的較高風險。

ChatGPT / Perplexity / GenSpark 【穩健派】
– 以熱門馬為中心，傾向於穩定的預測。在堅實的賽事中表現較強。
– 在大波亂的賽事中可能會崩潰。

Felo（3.7sonet）【獨特派】
– 逆向操作和獨特性強，但此次未能提供良好結果。
– 未來的分析可能會改變評價。

2. 開始
本文將針對三場重賞賽（海洋錦標、郁金香獎、中山紀念）中，利用各種LLM（ChatGPT、Grok、Perplexity、Felo、Gen Spark）的DeepResearch功能進行的預測，與實際名次、人氣及賠率進行比較，並分析各模型的特點、優勢和劣勢。希望能作為運用DeepResearch於競馬預測時的參考資料。

請注意：由於每次執行的參考來源可能不同，推薦馬匹可能會有所變化，因此其再現性存在挑戰。請僅作為參考考量。

【輸出指示】
總論：對於整體賽事的情況、特點和重點的總結。

分析風格：從預測專家的視角進行分析和思考。

最終結論：推薦四匹注目馬（◎本命、○對抗、▲單穴、★大穴）。

【補充事項】
各種LLM均在同一時間段內使用相同的提示進行執行。基本上是一次性的指示，只有在推薦馬不在出賽馬中時才會添加額外指示。Felo使用了Claude 3.7 sonet。GenSpark因回數限制未能對郁金香獎進行評估。Gemini的DeepResearch因為無法免費使用，此次未列入調查對象（未來將考慮）。

3. 賽事別結果與預測比較
3-1. 海洋錦標（GⅢ）
收集時間：星期五晚上（賽事前一天）

結果：
1著：媽媽小茶（1號熱門 / 賠率2.7）
2著：雙子星（4號熱門 / 賠率8.0）
3著：翅膀最強（6號熱門 / 賠率9.9）

各LLM的主要印記與名次：
ChatGPT
◎媽媽小茶（1著）
○持股者（10著）
勝馬準確預測，但未能預測到第二名。

Grok
◎媽媽小茶（1著）、○雙子星（2著）
完美預測了第一和第二名，顯示出最高的準確性。

Perplexity
◎威爾摩納克（5著）、○雙子星（2著）、▲媽媽小茶（1著）
雖然對勝馬和第二名都有標記，但本命卻是第五名。

Felo
本命和對抗的馬均未進入前列，未能標記到勝馬媽媽小茶，結果偏差較大。

Gen Spark
◎媽媽小茶（1著），但未能標記第二名的雙子星。雖然中獎了勝馬，但未能拾取到連下馬。

總評：
Grok展現了最高的準確性。ChatGPT和Gen Spark對熱門馬（媽媽小茶）進行了穩健的預測。Perplexity則略有冒險，Felo因為逆向操作未能預測到勝馬。

3-2. 郁金香獎（GⅡ）
收集時間：星期六中午（賽事前一天）

結果：
1著：栗野梅（9號熱門 / 賠率39.3）
2著：水之花（7號熱門 / 賠率15.1）
3著：VIP雛菊（1號熱門 / 賠率2.9）

各LLM的主要印記與名次：
ChatGPT、Grok、Perplexity、Felo
均將1號熱門VIP雛菊（3著）列為本命。然而，1著（9號熱門）和2著（7號熱門）完全未被標記。

總評：
1號熱門VIP雛菊雖然進入了前三名，但沒有任何模型能夠準確預測到9號和7號的名次。所有模型在波亂中均表現脆弱。

3-3. 中山紀念（GⅡ）
收集時間：星期天早上（賽事當天）

結果：
1著：六便士（2號熱門 / 賠率3.1）
2著：生態瓦爾茲（3號熱門 / 賠率6.9）
3著：靈魂衝擊（1號熱門 / 賠率2.8）

各LLM的主要印記與名次：
ChatGPT
◎靈魂衝擊（3著）、○六便士（1著）
未能標記到2著馬（生態瓦爾茲）。

Perplexity
◎靈魂衝擊（3著）、○六便士（1著）
同樣未能標記到2著馬。

Gen Spark
◎阿爾納西姆（12著）、★六便士（1著）、▲靈魂衝擊（3著）
未能標記到2著馬，未能準確預測前兩名。

Grok
◎名將千丹（6著）、★生態瓦爾茲（2著）、○靈魂衝擊（3著）
未能標記到1著馬，但2著和3著均有預測。

Felo
◎阿爾納西姆（12著），未能標記到任何上位馬。

總評：
雖然1號、2號和3號熱門的結果堅固，但沒有任何模型能夠全數中獎。ChatGPT和Perplexity雖然標記了1著和3著，但卻未能標記到2著；而Grok則標記了2著和3著，但未能標記到1著。Felo的逆向操作未能奏效，結果偏差較大。

4. 各LLM的預測傾向與特點
(1) Grok
優點：
不僅關注熱門馬，也會標記中小熱門馬，並在海洋錦標中預測了1-2著，具有一定的爆發力。能夠相對較多地拾取中位數的熱門馬。

缺點：
本命選擇較為冒險，可能會輕視熱門馬。在堅固結果的情況下，若未能選中勝馬將面臨較高的風險。

(2) ChatGPT / Perplexity / Gen Spark
共通特點：
對熱門馬的評價較為正面，本命和對抗馬往往是1號或2號熱門。在堅固結果的賽事中，能夠相對較容易地中獎，軸馬不易崩潰。

差異點：
Perplexity的印記範圍稍廣，但在波亂程度高的賽事中，往往難以拾取。ChatGPT和Gen Spark雖然也會保留熱門馬，但對中小熱門馬的預測則顯得較為保守。

缺點：
如同郁金香獎這樣的波亂結果中表現薄弱，可能會全軍覆沒。在熱門馬中若輕視任何一匹，可能會錯失三連系的中獎機會。

(3) Felo
優點（潛在可能性）：
使用逆向操作和獨特理論，若波亂發生則有高額回報的機會。

缺點：
在三場賽事中均未能選中勝馬，未能預測到上位馬，結果表現不佳。對於堅固和順當的結果則完全無法適應。

5. 總評價與結論
5-1. 穩定性 vs. 爆發力
ChatGPT / Perplexity / Gen Spark
由於對熱門馬的評價較為正確，因此在堅固結果中不易錯失勝馬。而在出現大穴馬的賽事中則顯得脆弱，像郁金香獎這樣的賽事中可能完全無法中獎。

Grok
能夠積極拾取中小熱門馬，因此在波亂賽事中有機會中得高額獎金。然而，在外擇熱門馬時，若未能選中勝馬則將面臨較大風險。

Felo
由於採取「獨特理論・逆向操作」，在三場賽事中均未能中獎。未來的檢驗可能會根據條件改變其預測結果。

5-2. 使用區分的要點
在預期堅固結果的賽事中，選擇ChatGPT / Perplexity / Gen Spark這類以熱門馬為主的模型，能提高中獎率。

在波亂賽事或預測困難的賽事中，選擇如Grok這樣能夠拾取穴馬的模型，則有機會中得高額獎金。

Felo目前實績不足，但若需要逆向預測的模型，仍有參考價值。

5-3. 結論
總的來看，各模型皆有其擅長與不擅長之處。雖然僅有三場賽事難以下定決策，但傾向性如下：
若追求穩定性，則選擇ChatGPT / Perplexity / Gen Spark。
若追求波亂，則選擇Grok。
若專注於逆向操作，則選擇Felo（但目前尚未有出色結果，需進一步檢驗）。

在實際競馬預測中，依賴賽事的性質（堅固或波亂）以及展開來進行評估，結合多個模型的特點，將會是更有效的策略。

#競馬 #競馬預測 #競馬信息 #競馬報告 #AI競馬預測 #競馬分析 #DeepResearch #LLM #ChatGPT #Grok #Perplexity #Felo #GenSpark #數據分析 #競馬檢驗 #穴馬預測

這篇報告不僅展示了各種模型在賽事中的表現，還讓我們看到AI在競馬預測中的潛力和限制。未來的競馬預測不僅依賴於數據，還需要結合人類的直覺和經驗，這樣才能在競爭激烈的賽場中脫穎而出。

以上文章由特價GPT API KEY所翻譯及撰寫。