視覺化時間序列數據,提升多模態模型效能

Ai

🎨 Nano Banana Pro 圖像生成器|打幾句說話就出圖

想畫人像、產品圖、插畫?SSFuture 圖像生成器支援
Flux Gemini Nano Banana Pro 改圖 / 合成
打廣東話都得,仲可以沿用上一張圖繼續微調。

🆓 Flux 模型即玩,不用登入
🤖 登入後解鎖 Gemini 改圖
📷 支援上載參考圖再生成
⚡ 每天免費額度任你玩

✨ 即刻玩 AI 畫圖

Create a photorealistic and highly detailed image featuring the attached image walking confidently down a modern city street, accompanied by Jason Statham, Dwayne “The Rock” Johnson, and Jason Momoa acting as bodyguards.
John Wick (Keanu Reeves) is walking just beside or slightly behind the subject, holding an umbrella over him to shield from light rain.
The subject should be the central figure, wearing stylish casual clothing — like a fitted jacket, dark jeans, and sunglasses — exuding calm authority and cool charisma.
Statham, The Rock, and Momoa are dressed in black tactical-style suits, maintaining alert, protective stances, scanning the surroundings like professional bodyguards. John Wick wears his signature black suit and tie, looking composed as he holds the umbrella.
The setting is a downtown urban street with wet pavement reflecting city lights, parked luxury cars, and paparazzi in the background snapping photos.
The photo should look like a real paparazzi shot — slightly off-angle, mid-step motion blur, with realistic lighting and reflections.
Lighting: natural daylight with overcast skies, reflections from wet concrete, realistic shadows, subtle raindrops on the umbrella and clothing.
Camera realism: crisp detail on facial features and clothing textures, shallow depth of field emphasizing the group, with lens flare or light bloom for authenticity.
Mood & tone: grounded, cinematic, and stylish — feels like a moment from a celebrity entourage photo or action-movie press capture, taken with an iPhone by paparazzi.
Style: ultra-realistic, documentary-style street photography with modern cinematic sharpness.
the traveler stands by the colorful waterfront of Willemstad, Curaçao, bathed in warm early-December daylight. He wears a soft pastel blue shirt, cream chinos, and clean white trainers. Wide angle, ultra-realistic, cinematic lighting, 8K resolution, full-body shot, drone shot centered on him while the iconic pastel Dutch-colonial buildings and calm water smooth the emotional ending of the story.
Create a hyper-realistic promo image using my uploaded photo.  
Keep my real face exactly as it is (no changes to eyes, mouth, jawline, or skin).  
Place my portrait seamlessly inside the design of the US 100-dollar bill, maintaining the texture and engraving lines.  
Add two more versions:  
- One on the Euro (€100) banknote  
- One on the British Pound (£50) banknote  
Ensure the portrait blends naturally with the currency engraving style, with deep shadows, embossed effect, and authentic banknote detailing.  
Ultra HD, crisp details, cinematic lighting, clean background, premium quality

增強多模態模型中的時間序列分析:透過視覺表現獲得更深入的見解和成本效益

多模態基礎模型如GPT-4和Gemini能夠處理非文本數據格式如圖像,因此在各種應用中非常有效。然而,這些模型在評估大量多維時間序列數據時卻未能充分利用,這對於醫療、金融和社會科學等行業至關重要。隨著時間進行的連續測量,即時間序列數據,是一個豐富的信息來源,但目前的模型未能充分利用這些數據,這意味著錯過了推動這些領域數據驅動決策的機會。

為了解決這一挑戰,Google AI最近的研究提出了一個獨特而簡單的解決方案,利用多模態模型中已有的視覺編碼器來查看時間序列數據。這種方法將時間序列數據轉換為視覺圖表,並將其輸入模型的視覺組件,而不是將原始數值序列提供給模型,這往往會導致表現不佳。這樣就不需要進一步的模型訓練,節省了成本和時間。

研究表明,通過實證評估,將原始時間序列數據以文本格式提供不如使用這種視覺技術有效。使用模型API的顯著成本節約是採用時間序列數據視覺表示的一大優勢。與相同數據的文本序列相比,當數據以圖表形式表示時,視覺輸入所需的數據單元(tokens)要少得多,從而使模型成本降低多達90%。

在某些情況下,單個圖表可以用顯著更少的視覺數據單元傳達相同的信息,這不僅使過程更高效,還更具成本效益。

合成數據試驗被用來驗證使用圖表來可視化時間序列數據會提高模型性能的前提。這些實驗從確定清潔數據的功能形式等簡單任務開始,然後轉向更困難的挑戰,如從噪聲散點圖中提取重要趨勢。這種技術的韌性已在這些受控研究中得到證明。

研究人員將這一技術應用於真實世界的消費者健康活動,如跌倒檢測、活動識別和準備評估,以進一步驗證其在合成數據之外的普遍性。為了讓模型在這些任務中得出正確的結論,它必須對異質和噪聲數據進行多步推理。即使在這些要求高的任務中,基於視覺圖表的策略也比基於文本的方法表現更好。

結果顯示,採用時間序列數據的視覺表現顯著提高了在合成和真實世界任務中的性能。在被稱為零樣本任務的合成任務中,性能提高了多達120%,在這些任務中,模型沒有被給予任何先前知識。在真實世界任務中,性能提高更顯著,如活動識別和跌倒檢測,比使用原始文本數據提高了多達150%。

總而言之,這些結果表明,通過利用GPT和Gemini等多模態模型的內在視覺功能來處理複雜的時間序列數據是可能的。使用圖表來描繪這些數據的方法不僅降低了成本,還提高了性能,這使其成為一個可行且可擴展的多種應用選擇。這種方法使得在時間序列數據至關重要的領域中可以以新的方式應用基礎模型,從而實現更高效和有效的數據驅動見解。

編輯評論

這篇文章揭示了一個非常有趣的技術進步,即利用多模態模型的視覺編碼器來處理時間序列數據。這種方法不僅提高了模型的性能,還大大降低了成本,這對於需要處理大量數據的行業來說是一個革命性的變革。這種技術的潛力不僅限於理論研究,它在實際應用中的成功也顯示出其廣泛的適用性。

然而,這種方法的實施可能面臨一些挑戰。例如,如何在不同的應用場景中有效地生成和解釋這些視覺圖表,以及在多變和動態的環境中保持模型的準確性,都是值得深入研究的問題。此外,對於如何在技術上進一步優化這些視覺編碼器以處理更大更複雜的數據集,仍需更多的探索。

總的來說,這項研究為未來的數據分析和人工智能應用開闢了一條新的道路,值得我們密切關注和進一步探索。

以上文章由特價GPT API KEY所翻譯

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *

🎬 YouTube Premium 家庭 Plan成員一位 只需 HK$148/年

不用提供密碼、不用VPN、無需轉區
直接升級你的香港帳號 ➜ 即享 YouTube + YouTube Music 無廣告播放

立即升級 🔗