
今天與 {{active_subscriber_count}}+ 位讀者一起看:
🗞|Perplexity 一站式 Agent API 平台
🚀|xAI 推出 Grok 4.20 Beta 模型 API
📊|Cursor 發布 CursorBench 基準測試
🔬|Gemini 讀新聞就建出暴洪預測資料集
🔍|TIME 深度報導 Anthropic v.s.五角大廈
🗞️ NEWS
Perplexity 一站式 Agent API 平台

AI 搜尋引擎 Perplexity 推出了 Agent API,開發者只要一個 API key 就能搞定搜尋、模型、embeddings,直接建出完整的 AI agent,不用再自己到處拼湊。
取代整套工具鏈: 它是一個託管運行時,幫你把模型路由、網頁搜尋、工具執行、多模型 fallback 全包了,開發者不用再東接西接。
什麼模型都能用: 支援所有主流模型供應商,內建 web_search 跟 fetch_url 兩個工具,也能接自己的 API,還附了包含 Deep Research 2.0 在內的預設。
三支 API 一起來: 除了 Agent API,還有幫你對自有資料做語意搜尋的 Embeddings API,以及能跑 Python、JavaScript、SQL 的 Sandbox API(目前是 beta)。
怎麼收費? 模型 token 照原廠價不加價,工具呼叫另算:每次 web_search $0.005、fetch_url $0.0005,完整定價看這裡。
📰 NEWSLETTER
Go from AI overwhelmed to AI savvy professional
AI will eliminate 300 million jobs in the next 5 years.
Yours doesn't have to be one of them.
Here's how to future-proof your career:
Join the Superhuman AI newsletter - read by 1M+ professionals
Learn AI skills in 3 mins a day
Become the AI expert on your team
🤝 ADVERTISING
讓 {{active_subscriber_count}}+ 位讀者認識你的產品
《Brief AI 電子報》讀者近 50% 擁有碩士以上學歷、管理階層超過 40%。超過 30 家國內外知名品牌合作,例如:Intel、數位時代、知識衛星…
🚀 LAUNCH
xAI 推出 Grok 4.20 Beta 模型 API

Elon Musk 的 xAI 正式推出 Grok 4.20 Beta 和 Grok 4.20 Multi-agent Beta 的 API,最多能同時派出 16 個 AI Agent。
速度第一: Grok 4.20 Beta 跑出 265 tokens/sec,在 119 個模型裡排第一,比自家 Grok 4.1 Fast 還快超過 2 倍。
幻覺率最低: Artificial Analysis 實測,不知道答案時只有 22% 的機率會瞎掰,比之前最低的 Claude Haiku 4.5(25%)還低。
指令遵循第一: IFBench 拿下 82.9% 最高分,比 Grok 4 直接高了 29.2 個百分點,Elon Musk 在 𝕏 上說 Beta 3 版本還會再大幅改進。
Multi-agent 能幹嘛? 同時派出 4 到 16 個 AI Agent 分頭搜尋、分析、交叉比對,最後由一個 leader agent 彙整成完整報告,適合需要深度研究的複雜問題,但 token 用量也會跟著倍增。
📊 CHART
Cursor 發布 CursorBench 基準測試

Cursor 發布了自家的 CursorBench 基準測試,用工程團隊真實的開發紀錄當題目,直接比較各模型在 Agentic Coding 任務上的正確率和 token 用量。
公開 benchmark 飽和: SWE-bench 這類公開測試已經快撞天花板了,連 Haiku 都能追上 GPT-5,根本看不出模型之間的實際落差。
題目更貼近現實: CursorBench 的任務來自真實開發紀錄,規模比 SWE-bench 大不少,而且題目描述刻意寫得很短,更像開發者平常跟 AI 講話的方式。
模型排名: 圖表上 GPT-5.4 和 GPT-5.3 Codex 拿下最高分(約 60%),Opus 4.6 緊追在後(約 57%),但 reasoning effort 調低的話,分數會掉蠻多的。
最強的才 60%? Cursor 說主因是公開 benchmark 已經被「背答案」污染了,前沿模型甚至能直接從記憶裡,還原正確的 patch。
🔬 RESEARCH
Gemini 讀新聞就建出暴洪預測資料集

Google Research 推出 Groundsource 方法,讓 Gemini 掃過全球 500 萬篇新聞報導,整理出 260 萬筆歷史洪水紀錄,讓原本幾乎沒數據可用的暴洪預測終於變得可行。
數據沙漠: 暴洪來得快走得也快,衛星根本來不及追,現有的全球災害資料庫只有大約 1 萬筆紀錄,拿來訓練 AI 模型遠遠不夠。
新聞變數據: Groundsource 讓 Gemini 讀 80 種語言的新聞,判斷哪些文章是在講真正發生過的洪水,再把時間、地點轉成結構化資料,驗證下來有 82% 準確度,足以拿來做實際分析。
即時預報: 靠這批資料訓練出的模型已經上線 Flood Hub,能提前 24 小時預測超過 150 個國家的城市暴洪風險,Google 說同樣的方法之後也能用在乾旱、土石流等災害。
精度夠用嗎? 目前解析度是 20 平方公里,也沒接本地雷達數據,所以精度還比不上美國國家氣象局的預警系統。但對無法投資昂貴氣象設備的國家來說,已經能解決很大的問題。
🔍 INSIGHT
TIME 深度報導 Anthropic v.s.五角大廈

TIME 最新一期封面故事深度報導了Anthropic 因為堅持 Claude 不能用在自主武器和大規模監控美國公民,直接被五角大廈貼上「供應鏈風險」標籤,這是美國史上第一次對自家科技公司這樣做。
兩條紅線: Anthropic 其實願意讓軍方使用 Claude,但 CEO Dario Amodei 不退讓兩件事,AI 不能自己決定開火,也不能拿來大規模監控美國人的隱私資料。
最後通牒: 國防部長 Hegseth 2 月 24 日親自約談 Amodei,限他三天內接受條件,Amodei 沒點頭,Trump 馬上在社群砲轟 Anthropic 是「極左瘋子」,OpenAI 當晚就搶下了這份軍事合約。
反彈效應: 被封殺隔天,Claude 的 iPhone App 衝上 App Store 第一名,每天超過百萬人註冊,OpenAI 反而因為搶合約被用戶抵制,還有一名頂尖研究員直接跳槽到 Anthropic。
Anthropic 損失慘重? Anthropic 3 月 9 日同時向加州聯邦法院和華盛頓特區上訴法院提告,說五角大廈違反第一修正案,3 月 12 日又進一步聲請緊急凍結這個標籤,因為已經有超過 100 家企業客戶表達疑慮,Anthropic 估計 2026 年可能因此損失數十億美元。




