
實體整合(Entity resolution)是指將來自不同系統的資料,整合、歸戶到同一實體上,比如將州政府各個系統的人物資料,彙整為完整的單一檔案。(/SAS)
另一創新重點是實體整合,這是一種將來自不同系統的分散資訊,歸戶到同一個實體(Entity)的作法,又可稱為數據匹配。Gavin Day指出,實體整合很重要,不只能獲得一個完整的實體數據,對AI開發來說,更能達到資料清理的效用。因為透過數據匹配、將零散的資料歸戶清理乾淨,就能降低「Garbage in,garbage out」的窘境。
SAS資深資料科學家Charles Cavalier現場舉例,實體整合可用於資料歸戶,比如美國各個州政府系統中,有著各式各樣的民眾資料,如教育資料、駕照、醫療資料、稅收資料等,同一位民眾在不同系統的資料,可能以不同姓名寫法呈現(如縮寫),或可能缺失某些重要資訊(如電話中間碼、車牌號碼等)。但透過深度學習等方法,從不同系統中、眾多類似人名的資料裡,正確歸納出特定個人的完整資訊,這就是實體整合。實體整合使用到的技術,則包括機器學習、深度學習和圖類神經網路等,Charles Cavalier強調,原本在單一類別或系統中缺失的資料(如電話、教育程度等),甚至能因實體整合而補足。
在實際應用上,就有國家政府機關,使用SAS Viya平臺和實體整合功能,來進行網路分析,進一步揪出稅務詐欺模式,他們也因此補足了60億筆稅務紀錄,也因抓出逃漏稅、獲得了額外的6.35億美元稅收。
至於實體整合的下一步,Charles Cavalier透露,SAS AI建模團隊打算建置Transformer小型語言模型,作為基礎模型,接著對模型做實體整合任務微調,來讓模型學會實體分類,進一步提高實體整合的能力。他也表示,團隊目前正研究生成式資料處理技術和深度嵌入,搭配這些技術,就能用來在不同資料集中找出同一個實體的描述紀錄,就像是資料歸戶,另也能用於搜尋任務。之後,SAS計畫將這些能力整合到既有產品中。
創新亮點3:量子運算
最後一項創新主軸是量子運算。早在年會開幕式上,Bryan Harris就揭露量子運算將是接下來SAS創新實驗室的重點發展,而且,「我們實驗發現,透過結合量子運算和傳統運算的混合運算架構,能大幅改善運算結果。」他也表示,量子運算在未來1、2年的發展,就會像是生成式AI之於AI一樣,帶來翻天覆地的變化。
而SAS應用AI暨建模部門總監Jinxin Yi現場以腎臟捐贈配對為例,來說明量子運算加速後的運算結果。
他表示,就腎臟移植配對來說,通常三分之一的捐贈者和受贈者無法第一次就配對成功。為解決這個問題,常見的做法是使用圖學,用點來代表捐贈者,以邊(點與點之間的直線距離)代表捐贈者與受贈者的匹配程度,並從這些點與邊形成的網路中,找出最合適的腎臟移植配對候選組,這個候選組可由好幾個點(即捐贈者與受贈者)組成。SAS團隊就採這種方法來計算。
但這種方法,這需要大量且複雜的運算,就算是用SAS本身優化過的運算方法,也得要180秒才能得出99.4%的最佳解。但使用SAS打造的量子解算器,30秒就能找出100%的最佳解。
SAS創新實驗室力推量子運算,以腎臟移植為例,為找出最合適的移植配對組,用量子解算器加速後,取得最佳解的時間可縮短為30秒。(/SAS)
更多相關報導請見