巨量資料可以定義為來自各種來源的大量非結構化或結構化數據,由於數據大或複雜,幾乎無法使用大多數的資料庫管理系統處理。巨量資料並沒有統計學的抽樣方法,如何從數量巨大的非結構化資料母體中找出特定特徵的資料進行分析或作全面運算,其關鍵在於萃取資料的文字處理技術。
在詞的表徵上清楚明顯,即便是非結構化資料的處理也十分容易。
字本身無足夠意涵,雖然字的數量不多,但其組合無限。大部分的中文文字處理都依賴關鍵詞庫,但此種方式亦限制了處理的數據,實際未被萃取到的數據可能更多。
大鐸的巨量資料分析不依賴關鍵詞,而是經由文字處理與運算。
過去:沒有資料母體,所以靠抽樣取得數據,抽樣的結果為計劃性及結構性資料,若抽樣得宜,則可以精準預測母體。
現今:電子化與網路化環境與過去相反,有完整的母體資料(即Big data),但資料量巨大,且為非結構化資料,需經由文字處理與分析(即從母體資料抽出數據或找出特定特徵資料),才能供統計分析或應用。而此過程也可視為另類抽樣。如何從巨量的非結構化資料中做另類抽樣或作全面運算,其關鍵在於萃取資料的文字處理技術,而非最終的統計結果。
西文資料:其先天在詞的表徵上清楚明顯,即便是非結構化資料之處理也十分容易。
中文資料:有限文字無限組合的特性,「字」本身無足夠意涵,故大部分的中文文字處理需依賴關鍵詞庫。
但關鍵詞的蒐集:
故處理此類數據有先天限制,但因量大,只要處理就有答案(但實際未被萃取到的數據可能更多),一般人只要有答案就滿足了!冠上大數據分析這名詞,就更無人質疑。
大鐸的中文巨量資料不依賴關鍵詞,而是經由文字處理與運算,其效果與一般是以關鍵詞基礎之分析十分不同。
《中研院史語所》之《漢籍電子文獻資料庫》當中的文本比對系統,經由碎片化疊文與疊字的全文處理後,可找出「多重局部相似」的文本,而「多重局部相似」的效果乃是文源學中文本溯源的最高境界。
《智慧財產局》之《中華民國專利檢索系統》及《全球專利檢索系統》中的智慧檢索,貼入大段文字文字,經由文字分析演算可找出相似內容,突破一般中文以文找文或所謂AI之關鍵詞不足及關鍵詞不關鍵之困境。
大鐸在資料處理及文字處理雙領域,長期經營超過20年,技術來源及研發超過30年,經驗豐富與時俱進。