知識份子的良知~資料庫篇 (清華大學資訊工程系 / 陳宜欣助理教授)
http://blog.xuite.net/ycedu/blog/209899142
http://disp.cc/m/982-7xGj&fr=pnn
很多認識我的人會知道我的專業是『資料庫』,所以我要來談一下NCC說我不懂的事情(各位部落格格友,對不起,這篇文章是NCC逼我寫的,因為他們建議我拿出證據來,所以我只好違反政治中立原則寫出來,不然我從去年六月一直等到現在,我一直想希望私下諫言的,但是他們都沒有私下來找我拿證據,所以我是被逼的.........)
『資料庫服務』以及『資料處理服務』這次被放到兩岸服務貿易協定商業服務業開放項目(簡稱服貿)
『資料庫』是什麼?可能會有很多人頭上冒出黑線、烏鴉,不奇怪,因為主流媒體上很少講到這個詞,但是主流媒體最近應該常常講到下面這兩個詞『雲端技術』『巨量資料 (Big Data)』,Big Data是甚麼?用一個不精確卻好懂的方式來說,Big Data後面有一拖拉庫的資料庫們,然後需要超級多的資料處理服務,換言之,服貿開放巨量資料服務讓中國企業接手。
可能有些人聽到會覺得還好呀,經濟部和NCC說「只有一類電信會有影響」然後剩下來的都是「利大於弊」,請各位格友勤快一點去條文查一下中國有沒有開放資料庫服務呀?(補充說明一下,中國那邊稱資料庫為數據庫)沒有!
知不知道這代表甚麼意思呀?代表中國知道資料庫很重要呀,不能隨便開放,結果台灣這摳政府居然口木口木的,有沒有問過專家呀?在台大資工教相關科目的教授們沒聽過有人被諮詢到(而且他們也都跑去聯署反對二類電信和電腦相關服務業了),我自己也沒被問過(清華資工近十年來只有我一個人開這個課程,所以如果問到清大,應該會找到我吧?),真是不能原諒!怒!(對不起,我失去了禮貌的口氣,趕快回來淡定一下)
(輕描淡寫的說)其實還有更令人怒的呢!經濟部和NCC說只有一類電信,有交換機的、有機房的才有影響,再加上如果有國安疑慮就不會開放,他們絕對會保護人民的隱私,你經濟部有能力知道哪一筆資料會影響到國安?然後就封鎖那一筆資料?別做夢了啦!(暴衝中)
讓我們在這裡上個簡單的課程,雲端技術、巨量資料這幾年來因為很紅,所以在聯合國以及各大國際會議上都會探究這裡面的議題,其中這兩個技術中最為人所擔心的就是「個人隱私的保護」以及「國家安全資料的保護」,為什麼讓人擔心?因為很多資料單獨來看,完全無害,但是當我們有辦法把所有的資料放一起,然後針對他來檢查、挖礦後,卻可以找到許多非常寶貴的資源,看不懂這一段的人,歡迎找各學校資料探勘課程修一下,就會知道資料處理後會可以產生很多金不換的機密(當然,這要專家級的人才辦得到)
講一個更更簡單的比喻,經濟部和NCC覺得只要守住一類電信服務就高枕無憂了,這有一點像是一個小朋友就守在那個水管下面,覺得只要水管有我守著,水資源就安全了,結果水從使用者那邊放進水管後,最後留到敵人的水塘裡面,然後一滴水都不剩了,要用水還要去拜託敵人,拜託分我一點吧!在這個例子中,水管是NCC的一類電信加二類電信,而水塘就是資料庫。
再多講幾個例子,來讓各位了解資料庫有多重要吧,請看近年來引導商業風氣的是誰呀?抱歉不是HTC也不是Acer,我們舉兩個例子就好,一個是Google,一個是Apple(題外話,從這兩個名字來推測,大公司的名字如果是le結尾也許可以領導(lead)風氣,所以如果Acer更名成Accel也許真的能加速爬升),我上課超喜歡用這兩個公司當例子,Google兩個創辦人是從美國史丹佛大學資料庫實驗室肄業的,他們的搜尋引擎是該實驗室其中一個研究題目,所以Google最厲害的地方是該公司對資料非常重視,很多公司被他們買下來,是為了他們的資料(例如:Youtube)而不是為了那個資訊軟體,資訊軟體再做就可以,但是資料沒有了,就怎樣都拿不到、就沒有先機了!也因為如此,他們積極開發各種軟體來從使用者手邊拿資料,例如廣受好評的Gmail。
Google是怎樣寶貝他們的資料呢?在搜尋引擎服務上(題外話:搜尋引擎也可以當成一種資料處理服務,資料處理服務也被服貿熱飲開放了),他們大概會用到兩種資料,一個是網頁資料(這是Google想辦法寫程式把大部分的網頁資料複製存回他們的資料庫),網頁資料會被整理然後排列好,一旦使用者要用到這些資料,這些資料會以極快的速度傳回使用者手邊;一個是使用者瀏覽紀錄,也就是使用者在搜尋引擎上輸入什麼關鍵字、點擊哪個頁面、停留多少時間…等等,用美化的講法,這些資料會被一再的利用以便給使用者更好的服務,用有心機的講法,這些資料是要幫助Google能站穩他的商業龍頭地位。
所以大家覺得很神的Google Translate其實就是從上面兩個資料來的,也因為有這些資料他們可以推出更多的服務Google News、Google Trends等等等,這些資料寶貴到他們不輕易讓別人使用,多年前在一個場合我曾遇過Google Taiwan總經理簡立峰教授,我很白目的問他:「簡老師,我們有沒有辦法跟Google提企劃,然後得到一點點的使用者瀏覽資料來讓我們研究呀?」簡教授很嚴肅的告訴我:「不行呀!這些資料連我都拿不出來,我們這些資料是放在一個玻璃屋裡面,如果需要查這些資料,要直接進到玻璃屋中操作程式,而且出來的時候只能帶結論出來,原始資料還是不能帶,這是為了要保護使用者的隱私權」
講白話一點,資料庫就是Google的命脈,然後我們政府要把台灣商業界的命脈免錢送,嗚....嗚...嗚......我真是太傷心了!
再換一個例子,Apple是台灣各硬體廠商最需要效法的對象了,因為他們本來也是賣硬體的,但是看他們最近怎麼從谷底攀升?有人會說,那是因為他們做出了驚人的iPad、iPhone啦!錯了!他們在那之前就攀升了,我個人認為:他們把資料庫的思維帶進商業模式中,這才是恐怖的地方!Apple這一系列的產品中有一個核心的資料庫iTunes,軟體要從那裏下載,協力廠商要開發軟體也要上架到iTunes,使用者要在上面有帳號,然後還可以去上面留言、評價,因為iTunes的關係,Apple有了自己的銷售平台、商業資訊分析資料庫,所以從iTunes資料的分析,他們可以知道使用者喜好、現在趨勢,進而開發出使用者愛的東西。為什麼當初Steve Jobs對Google開發Android氣得半死呢?因為他們居然自立為王,用了同一個招數!
掌握了Android的平台後(記得:平台後面可是有資料庫的),Google可以不急著自己生產硬體,所以他們可以跟HTC、三星合作,分點油水給這些下游廠商,但是使用者的喜好可是掌握在自己手上耶,所以哪一天莊家想要通殺的時候,哇哈哈哈哈哈......
看了這些例子,就會知道要當莊家呀,資料庫一定要牢牢的抓在自己手中,不然君以為Facebook怎麼可以這麼紅?紅在哪?因為他們手上有第一手社群資料,這些社群資料知道民知所欲呀!
這樣講完有沒有覺得資料庫很重要、絕對不能開放?金不換耶!
如果你曾經是我資料庫的學生,你也許會問:「老師,那你怎麼上課沒有講過?」其實我有,我一直強調資料庫很重要,只是從來沒拿服貿熱飲當例子,因為一明講就不算政治中立了!
那也許有人會說我這番話沒有競爭力,他們會說:「你怎麼可以這樣貶低自己呢?我們有競爭力,雖然開放這個服務,卻不代表我們的資料庫會被對岸服務呀!」這個問題很好回,請看一下我們的新戶政系統做的如何?有沒有罵聲四起?這個系統是最典型的資料庫服務,我們有做得很好嗎?更別提台灣的很多資訊服務都是大包轉小包、小包轉對岸包!(我實在不想一一點名,這樣會被更多人封殺)
當民間不懂,會用商業利益來計算得失的時候,政府更應該要是最後一道關卡,這一點中國政府做得很好,他們沒有開放資料庫、(任何)資料處理服務給台灣做,但是我們的政府有當最後那一道關卡嗎?沒有!更糟糕的是:當民間有力量出來質疑的時候,他們的態度居然是:「拿出證據來!」
所以我有很多朋友跑來問我說:「政府說教授們都在亂說,叫你們拿出證據耶」他們的態度就是我的證據,今天當我在講課的時候,即使我已經教授資料庫領域課程很多年,只要學生指出我有邏輯上的漏洞、證據上的缺失,我會當場道歉、改正,因為我知道能道歉、能低頭、能認錯才有進步的空間,我還想進步,我不想被資訊洪流淘汰,比起來我們的政府呢?
證據應該很清楚吧.................
4/8 16:55補充:中國在電信服務類有開放在線數據處理與交易處理(僅限於經營性電子商務網站),只有電子商務網站的在線數據處理唷,換言之他們的條文中很清楚的載明,台灣還是只能經營水管業,管不到水塘,而且即使要經營水管業,還要到在福建省設立合資企業;比起來這跟台灣開放的完全不設限「資料處理」,是截然不同的層級!
4/8 17:20補充二:現在大家在反的電信二類我也反呀,最好懂的水管比喻是:「你如果其中一段的水管給人家做,你怎麼知道他會不會用銅管滲毒,或偷偷用支管來偷水呀?即使不偷水,用一種高科技技術,只要流過的水分子,就會被備份、染色,你怎麼知道這不會發生咧?」然後我們的官員是這樣說:「只要他敢毒水,我們會罰錢!所以放心好了!」是呀,人都毒死了,當然放心!不過也不奇怪他們會這樣回答了,他們連水塘都敢讓人家管了,水管算甚麼?!
4/9 21:20補充三:有人說那段資料庫到資料探勘的描述太難懂了,我們換個例子:假設今天NCC想要寫Z>B的壞話,卻又不想讓別人知道是自己寫的(這可是國安機密),所以他決定在PMP-BBS用假名發表、也技術性的隱藏自己IP,這樣就以為高枕無憂了。可是他上班的時候,老闆要求他要幫Z>B宣傳,所以他在MPM-BBS用真名寫了一些Z>B的好話。本來以為他可以天衣無縫的有兩個分身,沒料到,因為他寫文章有一個奇怪習慣(例如:總是在句尾加「來來來!!!」),被某神人肉搜出來,讓老闆大怒!在這個例子中,每一個BBS是一個資料庫,肉搜就是資料探勘技術,當有越多資料庫放到大水塘中,就越容易找出一些我們不想曝光的國家機密。