
DeepResearch競馬預測報告|LLM徹底比較以驗證準確性
1. 導入
AI的高級信息收集功能「DeepResearch」,目前正受到廣泛關注。與傳統的AI搜索提供單一答案不同,DeepResearch能針對複雜主題進行多角度的信息收集和深層次分析,並以全面報告的形式呈現結果。這一功能使得從傳統搜索引擎中難以獲得的洞察和見解得以浮現。
本文將探討DeepResearch在競馬預測中的應用,並檢驗其潛力。當結合競馬專家的集體智慧與AI的高級分析時,競馬預測的準確性是否真的能得到提升?我們將比較多個類似服務,探索其可能性。
【結論】
Grok 【穴馬專家】
– 能夠找到潛力馬匹。在海洋S賽事中準確預測了第一和第二名。
– 也存在著不選中熱門馬的較高風險。
ChatGPT / Perplexity / GenSpark 【穩健派】
– 以熱門馬為中心,傾向於穩定的預測。在堅實的賽事中表現較強。
– 在大波亂的賽事中可能會崩潰。
Felo(3.7sonet) 【獨特派】
– 逆向操作和獨特性強,但此次未能提供良好結果。
– 未來的分析可能會改變評價。
2. 開始
本文將針對三場重賞賽(海洋錦標、郁金香獎、中山紀念)中,利用各種LLM(ChatGPT、Grok、Perplexity、Felo、Gen Spark)的DeepResearch功能進行的預測,與實際名次、人氣及賠率進行比較,並分析各模型的特點、優勢和劣勢。希望能作為運用DeepResearch於競馬預測時的參考資料。
請注意:由於每次執行的參考來源可能不同,推薦馬匹可能會有所變化,因此其再現性存在挑戰。請僅作為參考考量。
【輸出指示】
總論:對於整體賽事的情況、特點和重點的總結。
分析風格:從預測專家的視角進行分析和思考。
最終結論:推薦四匹注目馬(◎本命、○對抗、▲單穴、★大穴)。
【補充事項】
各種LLM均在同一時間段內使用相同的提示進行執行。基本上是一次性的指示,只有在推薦馬不在出賽馬中時才會添加額外指示。Felo使用了Claude 3.7 sonet。GenSpark因回數限制未能對郁金香獎進行評估。Gemini的DeepResearch因為無法免費使用,此次未列入調查對象(未來將考慮)。
3. 賽事別結果與預測比較
3-1. 海洋錦標(GⅢ)
收集時間:星期五晚上(賽事前一天)
結果:
1著:媽媽小茶(1號熱門 / 賠率2.7)
2著:雙子星(4號熱門 / 賠率8.0)
3著:翅膀最強(6號熱門 / 賠率9.9)
各LLM的主要印記與名次:
ChatGPT
◎媽媽小茶(1著)
○持股者(10著)
勝馬準確預測,但未能預測到第二名。
Grok
◎媽媽小茶(1著)、○雙子星(2著)
完美預測了第一和第二名,顯示出最高的準確性。
Perplexity
◎威爾摩納克(5著)、○雙子星(2著)、▲媽媽小茶(1著)
雖然對勝馬和第二名都有標記,但本命卻是第五名。
Felo
本命和對抗的馬均未進入前列,未能標記到勝馬媽媽小茶,結果偏差較大。
Gen Spark
◎媽媽小茶(1著),但未能標記第二名的雙子星。雖然中獎了勝馬,但未能拾取到連下馬。
總評:
Grok展現了最高的準確性。ChatGPT和Gen Spark對熱門馬(媽媽小茶)進行了穩健的預測。Perplexity則略有冒險,Felo因為逆向操作未能預測到勝馬。
3-2. 郁金香獎(GⅡ)
收集時間:星期六中午(賽事前一天)
結果:
1著:栗野梅(9號熱門 / 賠率39.3)
2著:水之花(7號熱門 / 賠率15.1)
3著:VIP雛菊(1號熱門 / 賠率2.9)
各LLM的主要印記與名次:
ChatGPT、Grok、Perplexity、Felo
均將1號熱門VIP雛菊(3著)列為本命。然而,1著(9號熱門)和2著(7號熱門)完全未被標記。
總評:
1號熱門VIP雛菊雖然進入了前三名,但沒有任何模型能夠準確預測到9號和7號的名次。所有模型在波亂中均表現脆弱。
3-3. 中山紀念(GⅡ)
收集時間:星期天早上(賽事當天)
結果:
1著:六便士(2號熱門 / 賠率3.1)
2著:生態瓦爾茲(3號熱門 / 賠率6.9)
3著:靈魂衝擊(1號熱門 / 賠率2.8)
各LLM的主要印記與名次:
ChatGPT
◎靈魂衝擊(3著)、○六便士(1著)
未能標記到2著馬(生態瓦爾茲)。
Perplexity
◎靈魂衝擊(3著)、○六便士(1著)
同樣未能標記到2著馬。
Gen Spark
◎阿爾納西姆(12著)、★六便士(1著)、▲靈魂衝擊(3著)
未能標記到2著馬,未能準確預測前兩名。
Grok
◎名將千丹(6著)、★生態瓦爾茲(2著)、○靈魂衝擊(3著)
未能標記到1著馬,但2著和3著均有預測。
Felo
◎阿爾納西姆(12著),未能標記到任何上位馬。
總評:
雖然1號、2號和3號熱門的結果堅固,但沒有任何模型能夠全數中獎。ChatGPT和Perplexity雖然標記了1著和3著,但卻未能標記到2著;而Grok則標記了2著和3著,但未能標記到1著。Felo的逆向操作未能奏效,結果偏差較大。
4. 各LLM的預測傾向與特點
(1) Grok
優點:
不僅關注熱門馬,也會標記中小熱門馬,並在海洋錦標中預測了1-2著,具有一定的爆發力。能夠相對較多地拾取中位數的熱門馬。
缺點:
本命選擇較為冒險,可能會輕視熱門馬。在堅固結果的情況下,若未能選中勝馬將面臨較高的風險。
(2) ChatGPT / Perplexity / Gen Spark
共通特點:
對熱門馬的評價較為正面,本命和對抗馬往往是1號或2號熱門。在堅固結果的賽事中,能夠相對較容易地中獎,軸馬不易崩潰。
差異點:
Perplexity的印記範圍稍廣,但在波亂程度高的賽事中,往往難以拾取。ChatGPT和Gen Spark雖然也會保留熱門馬,但對中小熱門馬的預測則顯得較為保守。
缺點:
如同郁金香獎這樣的波亂結果中表現薄弱,可能會全軍覆沒。在熱門馬中若輕視任何一匹,可能會錯失三連系的中獎機會。
(3) Felo
優點(潛在可能性):
使用逆向操作和獨特理論,若波亂發生則有高額回報的機會。
缺點:
在三場賽事中均未能選中勝馬,未能預測到上位馬,結果表現不佳。對於堅固和順當的結果則完全無法適應。
5. 總評價與結論
5-1. 穩定性 vs. 爆發力
ChatGPT / Perplexity / Gen Spark
由於對熱門馬的評價較為正確,因此在堅固結果中不易錯失勝馬。而在出現大穴馬的賽事中則顯得脆弱,像郁金香獎這樣的賽事中可能完全無法中獎。
Grok
能夠積極拾取中小熱門馬,因此在波亂賽事中有機會中得高額獎金。然而,在外擇熱門馬時,若未能選中勝馬則將面臨較大風險。
Felo
由於採取「獨特理論・逆向操作」,在三場賽事中均未能中獎。未來的檢驗可能會根據條件改變其預測結果。
5-2. 使用區分的要點
在預期堅固結果的賽事中,選擇ChatGPT / Perplexity / Gen Spark這類以熱門馬為主的模型,能提高中獎率。
在波亂賽事或預測困難的賽事中,選擇如Grok這樣能夠拾取穴馬的模型,則有機會中得高額獎金。
Felo目前實績不足,但若需要逆向預測的模型,仍有參考價值。
5-3. 結論
總的來看,各模型皆有其擅長與不擅長之處。雖然僅有三場賽事難以下定決策,但傾向性如下:
若追求穩定性,則選擇ChatGPT / Perplexity / Gen Spark。
若追求波亂,則選擇Grok。
若專注於逆向操作,則選擇Felo(但目前尚未有出色結果,需進一步檢驗)。
在實際競馬預測中,依賴賽事的性質(堅固或波亂)以及展開來進行評估,結合多個模型的特點,將會是更有效的策略。
#競馬 #競馬預測 #競馬信息 #競馬報告 #AI競馬預測 #競馬分析 #DeepResearch #LLM #ChatGPT #Grok #Perplexity #Felo #GenSpark #數據分析 #競馬檢驗 #穴馬預測
這篇報告不僅展示了各種模型在賽事中的表現,還讓我們看到AI在競馬預測中的潛力和限制。未來的競馬預測不僅依賴於數據,還需要結合人類的直覺和經驗,這樣才能在競爭激烈的賽場中脫穎而出。
以上文章由特價GPT API KEY所翻譯及撰寫。