魚羊 發自 凹非寺
量子位 | 公眾號 QbitAI
(資料圖)
困擾數學界30多年的塔拉格蘭卷積猜想,被90后華人數學家攻破了!
蘇黎世聯邦理工學院Yuansi Chen,剛剛在arXiv上發布了自己的最新研究成果:
論文證明了布爾超立方體上的塔拉格蘭卷積猜想(Talagrand’s convolution conjecture),結果精確到一個log log η因子。
這個結果引發了大量關注,簡單來說,是因為這為理解高維離散空間中的平滑化提供了數學論證。
另外,這項研究也與機器學習息息相關:
從理論上支撐了機器學習中的正則化概念;
為開發處理離散數據的生成式AI模型提供了直接的數學工具和物理直覺。
塔拉格蘭卷積猜想由“數學界諾獎”——阿貝爾獎得主Michel Talagrand在1989年提出。
我們先來了解兩個概念,其一,是“加熱平滑”:
想象一個非常高維的空間,比如一個巨大的多維棋盤,其中每個方格的狀態都是二元選擇。其中有一個函數,這個函數可能非常“尖銳”,有的地方數值特別大,有的地方數值特別小。
數學上的“卷積”或“熱半群”操作,就像是對這個函數進行“加熱”,使得熱量擴散,高數值向周圍低數值的地方流動。結果就是函數變得平滑,尖峰被削平了 。
其二,是馬爾可夫不等式:
馬爾可夫不等式告訴我們,一個非負隨機變量取到極大值的概率是很小的。比如平均值是1,那么數值超過100(η)的概率最多只有1%(即1/η)。
Talagrand的猜想是,在高斯空間或布爾超立方體等概率空間上對函數進行“加熱平滑”(卷積)操作后,這個函數取到極大值的概率應該比馬爾可夫不等式預測的還要低得多。
他認為這個概率不僅受1/η控制,還應該額外除以一個跟
有關的因子。
就是說,塔拉格蘭卷積猜想認為,經過平滑處理的數據,出現極端異常值的可能性比一般理論預測的要低一個特定的量級。
△AI生成
此前,這一猜想的高斯形式(連續空間)已經被數學家們攻克。但將其推廣到布爾超立方體這樣的離散空間,依然是一個巨大的挑戰。
因為高斯形式被解決的基礎是連續空間中微積分和隨機微分方程提供的平滑性和工具完備性,這些特性都無法直接被遷移到離散空間中。
對此,Yuansi Chen的解決思路是, 借鑒高斯空間隨機分析的框架,利用反向熱過程的特性來設計微擾,以適應布爾超立方體的離散特性。
具體來說,新的耦合構造利用了沿隨機過程的擾動。其擾動項δ不是常數,而依賴于狀態和坐標。
論文最終證明:
表明塔拉格蘭卷積猜想的核心思想是正確的。
這一結果將原始猜想解決到了僅相差一個log log η因子的精度。由于log log η的增長極其緩慢,可以認為其接近完整解決了塔拉格蘭卷積猜想。
值得關注的是,該論文是一篇關于概率論的純數學研究,但其結果與機器學習,乃至生成式AI技術有直接的關聯。
首先,論文中使用的“反向熱過程”,是擴散模型在布爾超立方體上的對應,兩者具有很高的相似性。
這意味著這項研究可能有助于理解或開發針對離散數據的擴散生成模型。
其次,塔拉格蘭卷積猜想的核心,是量化卷積操作帶來的正則化效應。而在機器學習中,正則化是防止模型過擬合、提高泛化能力的關鍵手段。
這一結果為“為什么平滑化處理或添加噪聲,能讓模型在復雜高維空間中表現更穩定”提供了理論支持。
此外,在機器學習中,很多數據本質上都是離散和高維的。該研究有助于理解高維離散空間的幾何性質,對于發展關于二值數據或邏輯函數的學習理論很有價值。
90后華人數學家
論文作者Yuansi Chen出生于1990年7月,是浙江寧波人。
他的主要研究方向是統計機器學習、馬爾可夫鏈蒙特卡羅方法、應用概率、高維幾何等。
2019年,他博士畢業于加州大學伯克利分校,師從華人統計學家郁彬。
在蘇黎世聯邦理工學院從事2年博士后研究之后,他在2021年至2024年加盟杜克大學,任統計科學系助理教授。2024年初轉入蘇黎世聯邦理工學院,任副教授。
Google Scholar顯示,他的論文被引數為1623,h-index為13。
他還是2023年斯隆研究獎的獲得者。














