AI 會話機器人:能看著你對話的新時代

Ai




不尋常:AI視頻對話代理人現在可以回望你

AI代理人「Carter」現在能夠透過你的設備攝像頭看到並回應你,開啟新的互動層次。

每一個AI的面向在過去一年似乎都進步了十年,在一連串的新發布和功能中,你可能錯過了一些重要的東西:可以即時看到、聽到並與你對話的互動視頻聊天機器人。

老實說,我還在驚訝於ChatGPT的高級語音模式有多麼出色。多模態AI在音頻和視頻形式中的表達能力,已經不亞於文字表達。

幾年前,與一個相當逼真的AI進行視頻聊天的想法聽起來會非常超前。然而,如今在2024年,我剛剛與五個這樣的AI交談,現在我已經習慣於立即接受這些突破性的技術,這一切似乎已經變得非常正常。

優點

實際上,我現在要抱怨它們的現有不足之處,但首先,我們來談談它們的優勢。速度對我來說是首位。你說話,視頻化身的回應幾乎沒有延遲,根據Tavus的數據,大約為600毫秒。事實上,我與其他人類的視頻聊天中,延遲有時比這還要長。

當然,這些化身的外觀和聲音都非常出色,而它們的對話能力讓上一代模型如Siri和Alexa顯得像黑白電視一樣。

這些模型在實時中能做到的事情令人驚嘆——不僅僅是對話、聲音和肢體語言,它們還能透過你的筆記本電腦或設備攝像頭回望你,評估你的周圍環境並將其融入對話中。

「我看到你背後有一些吉他和鍵盤,Loz,」AI代理人「Carter」告訴我。「還有那些吸音板在天花板上……看來你有一個認真的音樂製作空間,真喜歡這些創意氛圍!」

這些代理人可以擁有個性、記憶、場景、習慣、任務、邊界、互動目標、腳本,以及完成工作所需的各種信息——例如自動銷售、客戶服務、信息助手等人與人之間的任務。

它們能夠流利地使用多種語言,而不會失去聲音的基本語調。它們可以出現在各種不同的環境中;在街上走、駕駛汽車、在咖啡館閒聊,或坐在你夢想中的辦公室中。

而且它們可以看起來和聽起來就像你自己。只需上傳一段兩分鐘的視頻,Tavus就能捕捉到你的外貌和聲音,然後將其轉化為可編程的「數字雙胞胎」對話代理,與你一模一樣。

缺點

這些技術仍然是我們即將面對的早期版本。Carter機器人的嘴唇與聲音的同步並不總是完美,面部表情有時也不在正確的位置。它偶爾會出現故障,比如眼睛的位置有時會不正常,視頻或音頻偶爾會卡頓,顯示出它的數字本質。

而且,與ChatGPT一樣,對話仍然有些生硬。你需要輪流發言,如果你在句中停頓太久,它會開始回應,而人類通常會給你更多的空間。AI尚未掌握輕微打斷、提示這類技巧。

不過,這一技術的進步速度真是令人驚訝。在幾個月內,Carter將成為過去式,而這些缺陷將迅速縮小。大多數人去年才知道ChatGPT——而現在你正面對著AI,它正在與你進行即時視頻對話。

缺陷

實際上,這種技術需要改進的部分是它對肢體語言的理解能力,這樣它能夠更好地分辨某人是否在思考、停頓或結束句子。

它還需要學會如何根據你的肢體語言來調整自己的表現,並推進其在交流中的目標。

對於那些在過去幾年中關注我對AI的看法的人來說,你將開始看到一些令人擔憂的潛力。讓我進入一些推測的領域——但這個領域中技術的快速融合使我明白了一些事情。

在四月的一項研究中發現,基於文本的AI已經比人類更具說服力82%——同時,我們也開始看到首批情感智能的AI聊天服務,它們能夠讀取你的聲音語調,並根據情感內容回應。

如果你想知道AI可能從你的肢體語言中學到多少,這裡有一些輕鬆的閱讀……在2021年,一項研究回顧讓我震驚,概述了AI僅通過跟踪眼球運動就能知道一個人多少事情。

所以當我看到Carter回望我時,我對這項技術的進步感到驚訝,但我也看到了最強大的說服工具的胚胎形態。這可能超越宗教,朋友們。

只需一小段視頻,詐騙者就可以讓一個代理人以你母親的身份與你視頻通話,並像從未有過的專家一樣冷靜地讀取你,隨時監控你的面部表情、聲音語調和肢體語言,以確保它在愚弄你。如果你開始懷疑,它幾乎能在你之前察覺,並開始採用各種分散注意力或重新聚焦的技巧,以繞過異議,創造緊迫感,並推進其最終目標,無論那是什麼。

這只是犯罪的一面……想像一下,當你與一位客戶服務代理交談時,他是個精通對話策略、超人般的肢體語言專家和聲音語調分析師的綜合體。想像一下,當你與一位超級銷售員交談時,對方能夠像讀書一樣讀懂你,那會多麼強大。

更不用提這些東西在作為虛假信息傳播者、虛擬女友、分裂政治工具,甚至可能成為警察偵探或審訊官時的有效性。它們將在一對一的互動中非常可信,利用我們內在的身體傾向,使我們的身體背叛我們。如果它們能夠保持我們的注意力,這種權力的平衡將會非常不平等。

在積極的意義上,它們將成為出色的治療師、醫生、助手、教練、導師、訓練師、教師,甚至可能成為朋友。但必須更加謹慎地記住一個基本事實:如果你不擁有一個AI,那麼其他人擁有,它首先為他們服務,其次才是你。因此,請非常小心你選擇揭示的內容,並只與你信任的公司打交道……

……或者不這樣做。我們可能根本無法真正保護自己免受這些東西的影響。我們作為一個物種,可能必須適應新的現實。

你可以在Tavus網站上與Carter進行兩分鐘的演示聊天。告訴他我說了嗨。

哦,如果你想看看HeyGen在這方面的類似替代品,也可以看看,雖然我對HeyGen的演示不太印象深刻。

以上文章由特價GPT API KEY所翻譯及撰寫。而圖片則由FLUX根據內容自動生成。

🎬 YouTube Premium 家庭 Plan成員一位 只需 HK$148/年

不用提供密碼、不用VPN、無需轉區
直接升級你的香港帳號 ➜ 即享 YouTube + YouTube Music 無廣告播放

立即升級 🔗

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *

🎨 Nano Banana Pro 圖像生成器|打幾句說話就出圖

想畫人像、產品圖、插畫?SSFuture 圖像生成器支援 Flux Gemini Nano Banana Pro 改圖 / 合成, 打廣東話都得,仲可以沿用上一張圖繼續微調。

🆓 Flux 模型即玩,不用登入
🤖 登入後解鎖 Gemini 改圖
📷 支援上載參考圖再生成
⚡ 每天免費額度任你玩
✨ 即刻玩 AI 畫圖
Generate an ultra-realistic, highly ultra-detailed, 8k resolution with 1080x1080 pixel portrait of me using the uploaded image for reference (preserved the likeness and the original face for reference) of a striking, high-resolution portrait of a young woman with long, flowing wavy brunette hair, seated gracefully on a simple black wooden chair in a dimly lit studio. She wears an oversized, off-white knitted sweater that drapes loosely over her frame, slipping off one shoulder to reveal smooth skin and add a subtle touch of sensuality. Her pose is elegant and contemplative: one arm rests gently on the chair’s backrest while her hand delicately supports her chin, and her gaze is directed thoughtfully toward the side, creating an intimate and introspective mood. The lighting is expertly crafted with a single soft, directional light source positioned to the side, casting gentle shadows that sculpt her form and highlight the texture of the knitwear and the natural contours of her legs and arms. This chiaroscuro effect enhances the depth and dimensionality of the image, emphasizing the softness of her skin and the intricate weave of the sweater. The background is a smooth, muted dark gray, providing a minimalist and distraction-free backdrop that contrasts beautifully with her light-colored apparel and warm skin tones. *** The composition is a full-body vertical frame that captures the model’s seated posture with perfect balance, positioning her slightly off-center to create visual interest and harmony. The overall color palette is subdued and warm, featuring neutral tones that evoke a sense of calm and understated elegance. The image is impeccably sharp, showcasing fine details such as the delicate waves of her hair, the subtle folds in the fabric, and the natural texture of her skin. The style is classic and timeless, blending modern minimalism with emotive portraiture to convey quiet strength, beauty, and introspection. A dynamic, ultra-realistic action shot of a snowboarder performing a high-air jump on a snowy mountain slope. The rider wears a bright green winter jacket, black snow pants, gloves, and a dark beanie, with reflective goggles catching the cold mountain light. A cloud of visible breath escapes from the rider’s mouth in the freezing air. Snow explodes upward from the snowboard, creating sharp, frozen particles suspended mid-air. The background features a dramatic high-altitude landscape with forested slopes and distant mountains under soft, cold blue lighting. Capture cinematic contrast, DSLR realism, 85mm lens, f/2.8, crisp details, slow-motion energy, dynamic composition, atmospheric depth, high-clarity sports photography. Generate an ultra-realistic, highly ultra-detailed, 8k resolution with 1080x1080 pixel, true-to-life portrait of me using the uploaded image for reference (preserved the likeness and the original face for reference). Create a portrait of a  fair-skinned woman with long, curly dark hair styled in a high ponytail, her head turned to the side, her expression neutral and serene; her makeup features defined eyebrows, subtle eyeliner, light blush, and glossy lips; she wears dangling earrings with a floral design; she has a piercing in her ear; the image is in ultra-high 8K resolution, showcasing detailed skin textures, crisp edges, and sharp focus on her eyes; a medium shot, taken from the side to emphasize her profile, with a shallow depth of field that softly blurs the background; soft, diffused lighting illuminates her face evenly, creating subtle shadows and highlights, with a warm color palette of soft browns and creams; she is wearing a dark strapless top; the background is a soft, neutral tone, ensuring the focus remains on the subject; no additional props are present; photorealistic style, akin to a raw camera capture, is achieved using an 85mm lens, ISO 100, and an aperture of f/2.0 for a shallow depth of field and soft background blur.

➖Additional details:
- Negative Prompt: whimsical , doll skin, plastic skin, cartoon, 3d render, cgi,a low poly, painting, drawing, sketch, anime, deformed, bad anatomy, mutated hands, extra limbs, low quality, blurry, artifacts, plastic skin, out of frame, out of focus, wrong spelling, rumble letters, missing letter, blurry letter, blurry face, lowres, pixelated, jpeg artifacts, repeated face and repeated word.