專訪飛笛科技創始人CTO姚坤:這是數據+實干的年代
原標題:專訪飛笛科技創始人CTO姚坤:這是數據+實干的年代
經歷過三次技術浪潮之后,AI正引發越來越多年輕人離開大廠選擇創業。
2015年以前,姚坤還是騰訊某研發小組負責人,此后他辭去穩定的工作加入飛笛科技出任創始人CTO,聯合兩位資深財經媒體人,在距離騰訊大廈一樓之隔的松日鼎盛開啟了一段未知的創業之旅。
這恰好與2016年AlphaGo所掀起的人工智能熱潮同步。姚坤認為,事件,社交類信息的處理,加載金融場景,是一件很酷又充滿想象力的事業。
他指出,正是由于當下AI前沿技術的免費共享,決定了小公司與大公司的技術差距實際上并不大,但對行業的理解力和方法論決定了事情的成敗。目前財經數據領域的AI應用還處在初級階段,其中挑戰最大的就是飛笛所在的智能投研市場。
四年多的探索過程中,飛笛曾經“走一步就掉一個坑,爬起來后再掉到另一坑”,逐層疊加這些技術積累并進化后,接下來公司將推出基于全網社交大數據的上市公司情緒感知系統。
雖然還處在弱人工智能時代,但AI給財經數據的處理和應用已經帶來改變。姚坤表示,在當下行業底層技術充分開放的階段,AI創業要更注重下沉,并了解AI的能力邊界,再找準突破點推進下去。
AI初階創業的考驗:數據積累與執行力
《21世紀》:作為一名扎根四年的AI創業者,你覺得當前AI創業的機會和挑戰是什么?
姚坤:李開復在其《AI·未來》一書中總結過AI所處的階段,已經從“發明的年代”過渡到“數據和實干的年代”。深度學習算法早在2006年就獲得了突破。在2016年AlphaGo戰勝李世石之后,深度學習在國內的熱潮才被點燃。最近幾年AI的發展,都不過是依賴深度學習這項大發展所做的漸進式改善和優化。在這個過程中,AI迅速蔓延到工業界。這一階段的特點是技術門檻不斷降低,對數據和執行落地的要求在提高。
那么創業者的機會有:第一,AI 前沿技術免費共享,新的理論可以被快速試驗和應用,決定了小公司在技術上與大公司差距并不大。第二,傳統行業效率提升和自動化帶來新的商業機會。第三,海量數據價值尚有待充分發掘,比如沉淀已久的化石級數據(比如手寫的文稿),由移動應用和傳感器產生的新增數據(豐富了用戶畫像),獨特的另類數據(比如啤酒和尿布銷量的關聯度)等。
挑戰方面,首先,如果一個創業者想深入產業推動變革,那么他對行業的理解力和方法論決定了事情的成敗,或者說他除了懂AI,還得懂行業。其次,數據價值凸顯,應用效果的提升主要靠數據規模和質量驅動,因此數據的獲取和處理能力是競爭壁壘的關鍵。
海量數據的特征是數據源分散,難收集,雜質多,難清洗,數據異構,難融合。難點相當多。
《21世紀》:飛笛的定位是“專注在財經數據智能分析的金融科技公司”,你覺得當前國內AI在財經數據應用領域,公子耳卿處在什么階段?
姚坤:財經數據領域整體還屬于人工智能滲透的初期,機會很多,也都不容易。比較成熟的有個人征信,量化交易,還在路上的有文檔審核校對,撰寫報告,智能客服,風控,理財,比較遠的有智能投顧,智能投研等。
個人征信和量化交易需求明確得較早,是因為數據比較完善,結構化程度高,所以比較好介入。但是面臨的問題也比較多,比如個人征信誕生了很多灰色的數據爬取和交易,量化交易方面,各家的“信息優勢”差異很小,能否在市場勝出靠的是發現新的數據因子,除了大名鼎鼎的文藝復興科技,大部分平淡無奇。
文檔審核,報告撰寫,以及基于財報數據的風控,主要基于金融行業一大類規范文檔的識別,利用模板和預設邏輯可以較好的實現。參與這類業務的主要是有技術基因的AI公司。
挑戰最大的是飛笛所處的智能投研領域。它的應用領域廣,需求場景很多,包括信息和情報監測,風控,投資,投顧,機構數據中臺,垂直搜索,App前端,展業獲客等。智能投研對能力要求門檻高,因為涉及到NLP(自然語言處理)。另外,業務縱深也是一大挑戰,進入具體場景就能發現業務邏輯很復雜,水很深。
財經數據處理的挑戰:細化和疊加智能化技術
《21世紀》:飛笛在把AI技術應用到財經數據處理過程中,最大的難點是什么?
姚坤:我們目標比較明確,就是想做財經資訊的自動分類和標簽,形成一個信息引擎。資訊的分類與打標簽屬于NLP這個方向,相比圖像識別,技術成熟度比較低。
原因一方面是AI在語義理解上還差得很遠,另一方面中文有自身的特點,比如表達簡單但內涵豐富,需要依靠上下文和讀音才能準確識別。所以我們盡量繞開語義理解,選擇可行的方向。但中文是繞不開的,得額外照顧。
《21世紀》:有沒有走過一些彎路,掉進過一些坑?
姚坤:感覺是走一步就掉一個坑,爬起來后再掉到另一坑。我們從數據抓取入庫就遇到了很多問題,首先是數據源分散,每個信源的網站結構各不相同,需要多種數據解析方式,還需要攻克一些反爬措施。
其次是數據異構。比如有些網站的文章有摘要,有些沒有,有些網站有作者字段,有些則沒有,有些文章發表時間精確到分鐘,有些則只有日期。這樣融合在一起時,各種字段殘缺。
進入到資訊分類打標簽階段,問題就更多。列幾類我們在信息抽取時遇到的麻煩,這主要在于表達方式靈活多樣。比如對日期時間的識別,會有很多表述:“2019年8月31日-9月24日”,“06∶35”,“9月舉行”,“本月5日”,“10分鐘前”,“2天后”,這些要預埋很多模板邏輯來提取。
還有歧義詞的問題,這比較分散,比如有家上市公司叫“好想你”,為了識別這三個字在一篇文章中到底是不是上市公司,需要詞法分析和句法分析輔助判斷。
另外就是如何排除干擾項,例如,“國泰君安證券研究所所長黃燕銘對2019年余下的A股交易時間進行了預判”。這條按模式會匹配到“國泰君安”這家上市公司,但內容并不是這家公司的事情,需要補充規則或喂語料來識別。每一個坑就意味著一項工藝待突破。
《21世紀》:這些微小的,不斷疊加的工藝突破對創業公司意味著什么?
姚坤:這是每一個AI創業公司都要經歷的過程。大的方向和技術框架目前比較成熟,剩下的都是一個個小問題的解決和積累。比如針對分類或打標簽任務,技術方向上,可以選擇傳統的模式匹配——人工預先設定好模板規則和目標關鍵詞,由機器自動進行字符串正則匹配,也可以選擇深度學習——基于DNN(深度神經網絡)的NLP已經形成了一整套相關技術,包括詞向量,句向量,編碼器-解碼器,注意力機制,transformer和各種預訓練模型,而目前大熱的預訓練模型是以無監督的方式使用大規模文本語料庫進行預訓練,然后使用特定任務的小數據集進行微調。在實施過程中,每一種方法都可以嘗試,綜合使用,這考驗的是團隊執行力。
《21世紀》:機器學習依賴高質量的數據,財經信息的處理在這方面是否體現得更明顯?
姚坤:前面我們提到技術的前沿在不斷推進,但針對財經領域的信息處理,目前仍然是非常依賴數據。首先標注門檻高,需要有行業相關背景知識。其次,數據有隱含歧視的問題,通過數據分析,可能會得到歧視性的結果。另外數據有偏差,數據在標注的時候請人來做,人是會偷懶的,公子耳卿會想最簡單的方法去標注,結果標注的數據千篇一律,基于這樣的數據學的模型也只能達到標注范圍內的好效果,到真實數據上一跑,就不好使了。此外還有數據隱私保?等問題。
實際落地中,上面提到的技術我們都會結合使用。效果跟人力投入正相關,訓練機器是個長期磨合的事情。在這個過程中,我們創建了飛笛自有的非結構化數據的價值評估體系,生成了上市公司圖譜以及上市公司事件庫。
應用未來:搭建上市公司情緒感知系統
《21世紀》:聽說飛笛即將推出基于全網社交大數據的上市公司情緒感知系統?
姚坤:飛笛從2015年成立,已經有超過4年的財經數據儲備,數據包含雪球,微信等活躍社交媒體,傳統媒體及門戶,政府官網,垂直行業網站等,也包括結構化場內數據接入如萬得等。今年開始得到股東新浪集團的支持,接入了微博全量財經社交大數據。
我們計劃于10月推出微沸點情緒感知系統,它是針對上市公司,投資者和金融機構,提供的一款基于新聞媒體和社交大數據的實時風險預警,機會提示跟蹤系統,同期還將在《21世紀經濟報道》旗下21財經APP,微博推出上市公司情緒異動指數。我們認為,這是飛笛四年厚積薄發的第一款重量級產品。
《21世紀》:社交言論大數據的處理難度是不是更艱巨了?
姚坤:難度更高了。一方面相對于傳統媒體生產的新聞資訊,微博這種匿名社交的內容更隨意,暗語和表情更多。因此對信息做提純,分類及標簽化難度都變大了。另一方面是結合業務,有新的能力需要補。比如計算信息與它講到的公司的關聯度,計算情緒異動指數等。
在此過程中,我們創建了上市公司事件庫,這是一個以公司為核心,多維標簽化的資訊庫,比如信息是正向還是負向,信息是描述公司產品,高管還是子公司。另外,我們還創建了資訊的價值評估方法,從時間,熱度,價值和相關性幾個維度對信息進行解讀,比如信息的傳播量,重要度等。我們之前積累的資訊標簽化和知識圖譜起到了重要的能力支撐。
《21世紀》:飛笛的起步恰好與AlphaGo戰勝李世石引發的中國AI浪潮同步,能否暢想下接下來的AI時代是什么樣?
姚坤:如果機器能自己利用先驗知識,舉一反三,主動學習新知,就完美了。也就是強人工智能,但目前來說還遠遠看不到。
大膽猜想一下,理想未來是結合常識圖譜來給AI鋪墊底層價值觀,利用強化學習讓AI沿著設定的價值觀自己摸著石頭過河。
但是眼前對于想參與AI的創業小公司,務實的方向還是下沉到傳統行業,利用已經積累的數據,改善流程,提升效率。趁著目前AI前沿技術還能免費共享,與大公司技術差距還不大的好年代,擼起袖子加油干。飛笛與業內一些大公司也經常有交流,對財經資訊的結構化處理這個點,飛笛比這些大公司更有優勢。最后,入坑之前,還是先了解下AI的能力邊界,合理預期,找到需求場景和能力滿足的結合點。





