為何物聯網失敗,以及Pete Warden的應對之道
Pete Warden是一位你可能會在舊有的eTech會議或Foo Camp上遇到的老派工程師,他同時擅長硬體和最新程式語言的編碼。第一次見到Warden是在eTech會議上,雖然我不記得具體情況,但自那時起我們一直保持聯繫。他會參加我主辦的活動,我則會通過電子郵件與他討論一些故事構思。
我們經常交換電子郵件,討論Arduino等便宜又有趣的芯片的崛起,並對物聯網的潛力感到驚嘆。他最終將自己的第一家初創公司賣給了谷歌,並開始在那裡工作。之後我們失去了聯繫。不過,他在技術問題上的寫作對我理解連網設備及其實用性有很大影響。他對物聯網及其缺陷有著深入的了解。
在谷歌工作了七年半,參與TensorFlow的開發後,他離開創立了一家名為Useful Sensors的新公司。這是Warden的第四家初創公司,另一位TensorFlow的校友Manjunath Kudlur是他的聯合創始人。Useful創建了一個名為Moonshine的新語音轉文字模型,速度是目前流行的Whisper的五倍。
他們最近推出了Torre,一款完全在本地運行的即時語言翻譯器,旨在提高速度和隱私性。這使得它在一些低技術的場景中非常有用。例如,說西班牙語的患者可以用自己的語言與說英語的醫生交流,該模型會將其翻譯成英語,從而促進更準確的對話。相比之下,像Google翻譯這樣的工具需要在雲端處理,會造成延遲。Warden之所以能想到這些特殊場景,正是因為他在谷歌工作了很長時間,了解“語音”作為設備界面的重要性。
我最近與Pete交談,討論了Useful(及Moonshine)。我們談到老化的Siri、Alexa以及Hey Google。在交談中,他談到了物聯網失敗的原因,以及人工智能和小型語言模型(如他的Moonshine)如何實現智能設備的世界。
老實說,他一開始提到“烤麵包機”和完美的烤三明治就吸引了我,但你應該繼續閱讀,了解Pete對連網未來的思考。他對此非常有見地。
Om Malik:你向我展示的這個東西是什麼?
Pete Warden:這是我們的產品。它正在進行英語和西班牙語的即時翻譯。我們正在與非營利組織進行試點,因為我們希望幫助人們,特別是那些以英語為非母語的人,在家長會等場合進行交流。孩子們經常為父母翻譯,這在醫生診所、地方政府和急救人員中也很常見。現有的工具如Google翻譯已經過時——它們就像你在鍵盤上按下按鍵後,兩秒鐘後才顯示出來的東西,並不是對話式的。
Om:為什麼谷歌不改進這個?
Pete Warden:Google翻譯並不是優先項。它與他們的收入來源沒有直接關聯,因此相比他們的核心產品,它獲得的資源極少。對他們來說,這是一個可有可無的功能。
Om:難道他們沒有想像力去看這作為進入人工智慧時代的切入點,讓像Gemini這樣的工具對非英語使用者變得更有用?
Pete Warden:我希望他們能意識到這一點,但到目前為止,他們似乎沒有。這家公司似乎不再由技術人員管理,而是由MBA主導,許多決策都是反應性的,受短期財務目標驅動。舉例來說,谷歌是變壓器技術的先驅,但並沒有給予足夠的資源或釋放開源模型。當OpenAI獲得 traction時,谷歌卻進一步退縮,而不是像Meta一樣推動開源。這感覺像是缺乏領導力。
Om:所以,你的產品是本地運行的,對吧?
Pete Warden:是的,完全在本地運行。目前,它在平板電腦上運行,因為這是一個不錯的形狀因素,但它可以在手機或任何設備上運行。
Om:它是如何實現如此低延遲的?
Pete Warden:這是因為它在本地運行。我們從頭開始開發了自己的語音轉文字模型,準確度與OpenAI的Whisper相當,但速度快了五倍,這個模型叫做Moonshine。
我們的更大願景是讓語音成為與設備交互的標準方式。語音接口應該是私密且快速的。沒有人擔心將鍵盤連接到互聯網上,但當前的語音接口往往依賴雲端,這增加了不必要的延遲並引發隱私問題。語音應該像與人面對面交談那樣自然,但像Alexa、Siri和Google Assistant這樣的系統並沒有提供這種體驗。
Om:你認為這是為什麼?
Pete Warden:像谷歌和亞馬遜這樣的公司建造語音工具是為了服務於他們的商業模式。在谷歌,一切都圍繞著將搜索查詢推向雲端。我曾參與Google Assistant的開發,發現消除喚醒詞或啟用本地處理並不符合他們的指標。在亞馬遜,Alexa與購物和Prime訂閱緊密相連,用戶需求是次要的。
Om:那像微波爐或燈具這樣的設備呢?你的模型能在那裡運行嗎?
Pete Warden:這就是目標。我們正在設計足夠小的模型以便在微控制器上運行,目標是小於10MB。想像一下,每個有開關或按鈕的設備都有語音接口。這些模型不一定進行翻譯,但可以處理基本命令。
Om:你目前的產品進行翻譯。這是如何運作的?
Pete Warden:目前,它專注於文本翻譯,因為在對話中語音播放可能會很棘手。例如,如果它實時回讀翻譯,可能會打斷講話者。因此,我們設計它像字幕一樣運作——兩個設備背靠背放在桌子上顯示文本翻譯。這樣的設計既親切又直觀。類似Babelfish的設備在技術上是可行的,但需要更好的現實世界整合。
Om:那微控制器呢?當我們朝著強大、低成本的持續連接芯片邁進時,為什麼還要擔心這個?
Pete Warden:連接有能量成本,而這些成本並沒有顯著降低,不像計算能力。即使是藍牙低能耗(BLE)也為持續連接消耗了大量電力,這會耗盡電池。進行本地處理可以避免這個問題。此外,連接通常需要用戶身份驗證——例如Wi-Fi密碼、SIM卡——這會造成障礙。
Om:但我們正處於能量收集和更強大、低功耗芯片的邊緣。這不會開啟新的可能性嗎?
Pete Warden:能量收集仍然局限於微瓦,而大多數芯片的能耗為瓦特。因此,我專注於超低功耗的嵌入式芯片。它們將是從能量收集中受益的第一批設備。
Om:你認為小型模型的普及將重新定義人工智能嗎?
Pete Warden:是的。小型模型將驅動更好地理解我們及我們需求的設備。例如,能夠學習你習慣的燈光或在你離開房間時自動暫停的電視。這些模型不需要龐大——它們只需要在特定任務上表現良好。
Om:這與你對物聯網的批評有關。為什麼你認為物聯網失敗了?
Pete Warden:問題在於物聯網產品受商業目標如重複收入的驅動,而不是用戶需求。公司專注於為設備增加網絡連接,而沒有提供有意義的功能。例如,連網洗碗機並未解決任何真正的用戶痛點——它只是為了連接而連接。
Om:讓我們回到物聯網。你提到互聯網本身是物聯網革命未能發生的原因。你認為這是為什麼?你認為所有這些公司,不論是製造開關還是插座的,應該將互聯網放入這些設備中嗎?你認為發生了什麼錯誤?似乎每個人都想重現《大爆炸理論》中那個場景——通過互聯網開燈。
Pete Warden:是的,正是如此。
Om:但在你看來,思考中出了什麼問題?我們能從物聯網的失敗中獲得什麼教訓?
Pete Warden:對我來說,首要問題是,分配資源給物聯網產品的高管主要專注於產生重複收入。這是他們的出發點。他們看到科技公司賺了多少錢,估值多高,如何讓人們每月支付10美元的服務費,於是這些高管想,“好吧,我們也想要這樣。”
同時,技術人員看到互聯網在PC和手機中的明顯採用,認為可以通過將其他設備連接到互聯網來複製這一模式。但在這個過程中,產品設計師、用戶體驗專業人士或用戶代理並未參與討論。
結果,資源被分配,項目被啟動,最終我們得到了設計不良的產品。我最喜歡的例子之一是一個連網洗碗機。我與一位參與開發的工程師交談,他說經過六個月的開發,團隊仍然無法提出用戶為何想要將洗碗機連接到互聯網的單一有說服力的理由。沒有任何功能能實際改善用戶的生活或有意義。
因此,這是一種自上而下的方式。高管們說:“我們想要訂閱收入,”而技術人員則說:“我們看到這在PC和手機上有效,所以它肯定在這裡也會有效。”這種組合壓制了任何來自用戶體驗方面的人,他們本可以說:“等等,這並沒有解決真正的問題。”
Om:在你看來,有沒有任何物聯網產品是做對的?
Pete Warden:一個人們不太考慮的例子是電視。它們現在都是普遍連接的,用戶也期望它們成為互聯網設備。這是一個成功的故事——雖然有一些警告。
Om:像可怕的界面和極薄的利潤率?
Pete Warden:正是如此。此外,它們是隱私和安全的噩夢。你可能不會這樣說,考慮到你在新公司的職位——我不期待像TCL、Belkin等消費電子公司優先考慮用戶隱私、軟件有效性或安全性。他們的利潤率如此之低,以至於根本不在乎。
即使在Wi-Fi路由器公司,我們也看到類似的問題。無論是Eero還是其他公司,用戶體驗和安全的標準都不一致。我個人厭惡使用谷歌路由器,但至少我知道他們在安全上投入了精力。谷歌有資金和聲譽要維護,而許多其他消費電子公司則資源匱乏。
Om:而且他們幾乎沒有任何軟件工程師或用戶體驗設計師。
Pete Warden:正是如此。這就是為什麼很多東西都很糟糕。
Pete Warden:你知道,設備將可能獲得更多功能,例如改進的語音輸入,並將從這方面受益。但我真的相信,人工智能可以在你所描述的隱形界面中發揮巨大作用。
這一想法圍繞著我們生活中的所有設備更好地理解我們,並根據這種理解來幫助我們。具體情況仍不清楚,但這將根本不同。它不會像傳統計算一樣——而是會感覺更像是與另一個人互動。事實上,它甚至可能不需要說話。相反,這些設備會根據你的期望或希望去行動,就好像它們是智能的一樣。
Om:這如何改變傳統計算?現在,我們的設備有內核、上層的層次、Windows中的DLL,或iOS和Android中的服務調用。然後在上面還有用戶體驗層。在這個新的人工智能驅動環境中,這些服務調用和DLL會發生什麼變化?什麼會變得更相關?
Pete Warden:在計算中,我們一直在舊系統上堆疊新事物。例如,當前計算機之間的通信是通過像Wi-Fi或以太網這樣的剛性結構化協議進行的。
AI驅動的未來令人興奮的不僅在於設備理解我們,還在於設備相互理解。
舉例來說,如果煙霧警報器響起,而一台知道自己正在燒焦食物的烤麵包機可以彈出烤麵包,並通知煙霧警報器:“別擔心,這不是火災。”這可以防止警報發出刺耳的噪音,讓每個人都驚慌失措。
或者,假設你在一個房間裡,看著一盞燈,說:“開。”旁邊有一個揚聲器,可能會認為你在跟它說話。在這種情況下,揚聲器和燈需要協商並弄清楚你在對誰說話。
Om:這將需要設備之間進行我們目前所沒有的交流。
Pete Warden:正是如此。設備需要使用人工智能來理解周圍發生的上下文,即使它們來自完全不同的公司。當前的協議,例如Matter,可能捕捉到這些互動,但人工智能將添加一層上下文理解。例如,設備將識別到廚房裡有人的存在,烤麵包機正在運行,這不是緊急情況。
另一個例子是,當多個設備,如攝像頭或傳感器,檢測到異常情況,例如有人闖入房屋,這些設備可以協同工作,確定發生了異常情況並作出相應反應。
Om:這真令人著迷,這改變了設備的角色。
Pete Warden:是的,這一切將很大程度上依賴於AI傳感器或增強現實系統的輸入,這些系統描述了設備周圍的世界。
Om:昨天,我看到對Apple整合屏幕、Apple Intelligence和Siri的方式有些懷疑。但我在想,也許這只是Apple進入家庭並銷售更多傳感器和設備的一種方式。
Pete Warden:這是一個合理的觀點。這是一種策略,旨在為更多傳感器和智能系統在家庭中創造立足點。
Om:謝謝你,Pete,與你交流真是太好了,讓我瞥見了你所見的未來。
編輯註:下周不會發佈新聞通訊,因為我們將休息以慶祝感恩節週末。
以上文章由特價GPT API KEY所翻譯及撰寫。而圖片則由FLUX根據內容自動生成。