本科畢業于北大工學院,早期研究聚焦于自動駕駛;博士后期間在卡內基梅隆大學,利用強化學習解決核聚變反應堆控制問題。陳佳玉的科研生涯,始終圍繞著復雜系統的智能控制展開。
2025 年,陳佳玉開啟了全新的階段:他同時擔任博導與原力無限資深研究科學家,研究對象從核聚變轉向了通用家用機器人。他試圖結合學術界的理論深度與產業界的工程資源,尋找通往通用智能的路徑。
在本次專訪中,陳佳玉回應了關于“天才少年”標簽、中美科研環境差異以及具身智能落地路徑等話題。他認為,標簽并不重要,重要的是能否精準地定義研究問題,并在有限的資源下找到最優解。
核聚變與機器人,在數學本質上是一樣的
DeepTech:回望你的學術生涯,從自動駕駛到強化學習理論,再到核聚變控制,最后回歸具身智能。每一次方向轉變背后的邏輯是什么?
陳佳玉:我剛開始做科研是從技術角度出發的。起初做自動駕駛的感知,后來做決策,自然而然地接觸到了強化學習。博士階段,我希望能把這個方向做深,于是轉向了偏理論和算法的設計,暫時與具體應用解綁。
到了博后階段,我又想把算法重新落地到應用層面。無論是核聚變里的等離子體控制,還是具身智能里的機器人控制,本質上都是用強化學習去求解復雜的控制問題。一旦鎖定了強化學習這個方向,我就一直在沿著它做。
DeepTech:為什么對強化學習這么情有獨鐘?
陳佳玉:強化學習起源于認知科學,后來經由 Richard Sutton 引入計算機科學。它的學習過程是非常類人的(Human-like)。如果說人工智能的終極目標是發展類人智能,我認為強化學習研究的問題比其他范式更本質。
同時,它也是一個非常綜合的學科,涉及到控制理論、統計學、優化理論,對數理基礎要求很高。這一點我也比較喜歡。
DeepTech:可以理解為你比較喜歡挑戰難題、追求本質意義上的問題嗎?
陳佳玉:關于挑戰難題,這可能是我剛讀博時的一個誤區,認為最難的東西必定是最有用的東西。但我現在的 Philosophy 是不要單純為了做難的問題而做難的問題。如果單純為了挑戰最難的問題而做研究,其實有點太自我了。我現在更傾向于從需求出發,從實用主義出發,用一個有用的技術,解決大家最想解決的問題,這才是做工程、做企業需要著力的點。
關于本質,我認為這也跟你想做的研究的最終目標有關系。我們最終要發展類人智能,所以我認為強化學習是一個有前景的方向,這是本質的。當然,做研究和做企業不同。做研究是追求用最簡潔的方式解決最本質的問題。因為解決了本質問題,影響的點會很多,所以本質也是有用的一個方面。
DeepTech:你在 CMU 做核聚變控制是非常硬核的物理科學,現在做人形機器人拿水杯是日常生活場景。這兩類問題在數學本質和決策邏輯上有什么異同?
陳佳玉:方法論是一樣的。無論是基于真實交互數據,還是基于模擬器建模,從數學本質上講,它們都可以建模成一個馬爾可夫決策過程(MDP)。