Brand
載入中...

我翻了 語意分析 的牆

楊立偉

意藍資訊 董事總經理

於求學期間(1999年)創立意藍科技,帶領來自台灣大學技術團隊,以中文處理與網路技術為核心,服務亞洲眾多網站與知名企業,為當年台灣校園創業「學生董事長」代表。2008 年收購另一家知名創業公司「龍捲風科技」,一舉躍為國內搜尋引擎龍頭,連續多年獲票選為台灣最佳知識管理與搜尋引擎產品第一名,擁有上千家企業客戶,並赴日本參加國際檢索比賽獲第一名。

2012 年率先於台灣推出輿情分析品牌─OpView,如今已是國內規模最大的網路情報與社群口碑自動分析平台,每日收錄超過 60 億字,涵蓋台灣地區九成以上的社群流量。

2009 年獲經理人雜誌評選為年度「100 MVP 最有價值經理人」;2012 年獲國家雲端創新獎、數位時代「創業之星」首獎;2014 年獲數位雜誌選為代表台灣軟體的封面人物之一。

目前亦兼任於國立台灣大學,專長領域為資料庫及資料分析、知識工程、搜尋引擎等。

【 進化!語意分析的創新應用 】

2013 年時,哈利波特作者 J.K. 羅琳化名 Robert Galbraith 創作了一本偵探小說《Cuckoo》,評價雖高,銷量卻不好。英國的電腦科學家透過語意分析技術,將此著作和羅琳以往寫作文本比對,發現寫作手法極為接近,讓 J.K. 羅琳為真實作者一事曝光,《Cuckoo》因此大受關注,立刻竄上亞馬遜暢銷榜第一名。

前陣子,亦有人分析《紅樓夢》前 80 回與後 40 回是否為同一作者,而不論是哪個案例,語意分析可謂關鍵角色,但語意分析究竟如何運作?如何快速解構文本類型的「大數據」?資料的判斷原則是什麼?

另一方面,自美國總統大選,歐巴馬運用 Twitter 數據預測選情、取得選戰勝利後,社群輿情數據分析被廣泛地運用在學術研究、票房預測、民意走向等多種領域,並可做為了解市場趨勢及消費者行為之用。

本次演講將介紹語意分析與社群大數據(Social Big Data)研究方法,並概述社群輿情大數據的最新趨勢,以臺灣產業案為例,說明口碑監測、商業分析、到風向預測等多種應用。

臉書
相關部落格
泛答個人頁
【 快問快答 】

第一次翻牆是什麼時候? 什麼樣的情境下?

如同電影「駭客任務(Matrix)」的主角,最後看到整個世界都是流動的文字符號;投入語意分析技術,就是可以看到不一樣的世界。

如果把「知識」比喻成動物、植物、事物...等,你會把「知識」比喻成什麼?

路燈。有了路燈,才找得到東西,看得到路;拉朋友一起來路燈下,朋友也看得到路,但自己不會因此看不見。

語意分析就像是...?

從哆啦A夢口袋中拿出的神奇眼鏡,大雄拿去戴著看書,書裡的重點就會自己跑出來。

影像紀錄
文字紀錄

文/王景新

不可否認,「語意分析」絕對是資訊爆炸帶來的當代顯學,它談的是如何在浩瀚無邊的網海與書海,把資料整理歸納為有用的資訊、輸出,並創造新的商業模式。

2016 泛 · 知識節 —「翻牆吧!知識」於 11/19 邀請到意藍資訊的董事總經理楊立偉,分享自己在此領域中的經驗與心得。意藍資訊成立於 1999 年,志在結合數據分析技術與互聯網之發展,專注於研究開發搜尋、自動語意、網路社群分析等技術,並提供雲端平台服務 ─ 網路社群自動分析平台 OpView,運用搜尋與自動語意分析核心,搭配雲端主機,提供用戶即時的網路口碑分析服務。

而本場分享的參與者塞滿了教室,不少人於座位走道間席地而坐,或在教室後方排排站,充分反映「語意分析」在當下趨勢的熱度。

圖片截自 OpView 網站
圖片截自 OpView 網站

語意分析是什麼?

2013 年,《哈利波特》的作者 J.K. 羅琳化名 Robert Galbraith 創作了一本偵探小說《Cuckoo》,評價雖高,銷量卻不好。英國的電腦科學家透過語意分析技術,將此著作和羅琳以往寫作文本比對,發現寫作手法極為接近,讓 J.K. 羅琳為真實作者一事曝光,《Cuckoo》因此大受關注,立刻竄上亞馬遜暢銷榜第一名。前陣子,也有人分析《紅樓夢》前 80 回與後 40 回是否為同一作者,不論是哪個案例,語意分析皆可謂關鍵角色。

楊立偉解釋,「語意鑑識分析(forensic linguistics)」技術讓機器能看懂整篇文章,依照層次之分,首先懂字(word)、 詞(phrase)、句子(sentence)、段落(paragraph),再到文章(article)。

「語意分析的一個方式是,把整篇文章按照字、詞、句切碎,看哪個字出現頻率最高(bag of word)。」他以《理性與感性》(Sense and Sensibility)、《傲慢與偏見》(Pride and Prejudice)、《咆哮山莊》(Wuthering Heights)三本英國小說為例,先設定 affection、jealous、gossip、wuthering 四個單字,然後請程式找出這四個單字分別在三本書出現的「頻率」,最後分析出兩本為較近似的作品,正是出自同一位作家之手。

《理性與感性》、《傲慢與偏見》皆為作家珍‧奧斯汀之作品(Photo from wikipedia)
《理性與感性》、《傲慢與偏見》皆為作家珍‧奧斯汀之作品(Photo from wikipedia)

接著,楊立偉提到「詞頻邊際效應遞減」的概念。

他舉例,如果兩篇文章中「蔡英文」三字分別出現 1 次與 0 次,那麼差別就很大;但若兩篇文章中「蔡英文」分別出現 10,000 次和 10,001 次,那麼差別就不大,字詞出現的頻率越大,之中差異的影響越小,這就是邊際效應遞減。同時,語意分析一篇文章時參考的因素還包含單詞長度、句子長度、段落長度、單詞出現頻率,甚至標點出現頻率及單詞使用情況。

然而,中文不像英文字詞間有明顯的斷句;例如「全臺大停電」就可視斷句位置,而有全「臺灣大學」停電與全「臺灣」大停電兩種語意。這時,就必須使用「n-gram」概率語法,依據語句中 n 個語詞同現概率的統計資料,來推斷句子的結構關係。

n-gram 指的是建立在 n-1 階馬可夫模型上的一種。舉例來說,當 n=2 時,稱為二元語法(bigram);當 n=3 時,稱為三元語法(trigram),楊立偉說,通常用到八元語法(8-gram)就能正確分析中文斷句語意。

意藍科技創辦人楊立偉
意藍科技董事總經理楊立偉

將語意分析套用至經典《紅樓夢》

經典文本《紅樓夢》的作者身分一直是「紅學」研究者爭論不休的議題,普遍流傳的說法是前 80 回的作者為曹雪芹,後 40 回為高鶚、或者再加上程偉元所補。深愛《紅樓夢》的張愛玲也曾表示:「紅樓夢看到八十回後,一個個人物都語言無味,面目可憎起來。」認為本作品的後 40 回應為續書人所寫,而非原本的作者。

有趣的是,若撇開歷史脈絡,單純將語意分析套入《紅樓夢》的文本本身,便能發現很多字詞用法前後確實不盡相同。「前 80 回慣用的,後 40 回卻變了,例如前 80 回貫用『麼』,與後 40 回『嗎』、『麼』並用的方式不同(註 1);前 80 回充滿『取笑』,後 40 回未出現『取笑』;甚至以『不兩』這兩個看似無意義的字為檢索標的,也可以發現前 80 回與後 40 回的『不兩』前面連接的字迥異:前 80 回是『豈不兩全』,後 40 回用『可不兩全』。」楊立偉說。

易言之,不論作者是不是曹雪芹、續寫者又是不是高鶚,語意分析科學初步印證了《紅樓夢》前後並非同一人所撰寫的說法。

紅學研究中,對《紅樓夢》作者身分多有討論(Photo from wikipedia)
紅學研究者們對《紅樓夢》作者身分多有討論(Photo from wikipedia

事出必有因,每個字背後都有邏輯

「語意分析」帶大家看見遣詞用字會透露作者,而離我們生活更近的 ─ 網路上每天數不清的輿情中其實也藏著趨勢,美國總統大選、特定品牌促銷活動等「時事預測」,都可以使用如 OpView 這樣的社群媒體觀測平台,協助公關、行銷、產品、客服等人員更有效率地聆聽網友聲音。楊立偉表示這次美國大選開票前,他就先在臉書預告川普會當選。

「100 萬份文件就像是 100 萬顆星星,有各自的方向與向量。」

的確,文字就像一個一個待解碼的符號,透過語意分析,可以找出符號背後的意義,一如楊立偉所言:「這世界上沒有隨機分布,凡事一定有因果。」科學統計告訴我們,字詞不會隨機分布,所以,現在開始慎用每一個字吧!

註 1: 引用自杜協昌先生於第四屆數位典藏與數位人文國際研討會所發表的成果

欲罷不能,想讀完
在翻牆與不翻之間請別猶豫錯過知識撞擊
感謝支持
線上購票完成,線上驗證後皆能兌換實體票券