Tag: 大數據

高評價!巨匠電腦分享大數據專案失敗的八個理由

錚/

巨匠電腦分享大數據專案失敗的八個理由
無論新創公司或傳統企業,愈來愈多組織將未來押注在巨量資料。根據 IDG Enterprise,過去一年以來,曾執行數據專案的公司數量增加了 125%1,CapGemini 與 EMC 共同執行的調查則顯示2,70% IT 決策者認為,能否充分運用大數據關鍵價值,將左右公司的前景;65% 的受訪者更直言,如果沒能擁抱大數據,公司很可能日落西山,失去競爭力。從林林總總的數字中,可以觀察到企業十分重視巨量資料,但是實際上,巨量資料專案卻很容易失敗,而且往往重蹈覆轍。Gartner 研究總監 Svetlana Sicular 列舉了八個最常出現的錯誤3,小心別掉進陷阱中。

管理層的惰性:根據 Fortune Knowledge Group 的調查,62% 的企業領導人依然仰賴直覺;下決策時,61% 以真實世界的情境為優先考量,而非數據。Svetlana Sicular 敘述,Gartner 曾經服務一家家喻戶曉的旅遊公司,他們採取了大數據技術,執行點擊流(clickstream)分析,以了解消費者在網站上瀏覽與購買的流程,結果竟然發現他們的消費模式與公司高層的銷售模式居然完全相反。在結案報告中這家旅行公司寫道:「這個技術有效的解決了我們的疑惑,其結果劇烈了改變原有的業務,為了充分實踐數據呈現的洞見,我們更替了全新的管理團隊。」

他質問,有多少公司的領導層需要砍掉重練呢?

1508101056490.jpg
選擇錯誤的使用案例:有些公司的實力跟不上野心,選擇遠超過自身負荷能力的大數據專案,又或者企圖使用舊方法執行新專案,兩者都無可避免將走上失敗之途。

問錯問題:數據科學是由產業知識(比如零售、金融)、數學與統計、程式結合的複雜混合體。很多公司增聘了資料科學家,他們可能是程式高手也懂統計,卻缺乏了最重要的成分:產業知識。Svetlana Sicular 建議,應從產業中找到對的人才,因為「學習 Hadoop 比了解商業內涵簡單」。

缺乏必要的技能:這點與「問錯問題」類似。曾有一家金融機構想要調查人們的生活習慣如何影響他們購買退休方案的偏好,不過「習慣」太多種,執行這個專案的負責人把問題限縮到抽菸/不抽菸,但是失敗了。後來 Svetlana Sicular 與從事醫療產業的人士聊到這個專案時發現,他們並不問這種非黑即白的問題(抽不抽菸),而是「你抽菸幾年了?」、「你戒菸幾次了?」、「你最後一次吸菸是什麼時候?」總之,進行大數據分析時,應該找到熟稔特定專業領域的人士——醫療、語言學、行為心理學家、社會人類學家等等,IT 部門以外的專業人士。

大數據之外,無法預料的問題:資料分析只是巨量資料專案的一部份,訪問與處理數據的能力同樣重要,不過諸如網絡壅塞、人員訓練不足等等都有可能阻礙專案執行。

企業策略不一:如果巨量資料專案被隔絕於公司核心業務之外,那大概註定失敗,如果公司把雲端或其他策略置於巨量資料之前,那失敗的機率當然又更高了。

大數據孤島(silos):很多人喜愛談論「數據湖(data lake)」、「數據中心(data hubs)」,但是現實狀況是,很多公司嘗試建立數據水坑(data puddle),行銷數據水坑、製造數據水坑等等等等,但是彼此楚河漢界,不相往來。對組織而言,巨量資料只在水坑之間的高牆倒下、彼此匯流才會更凸顯價值。只是,辦公室政治或政策,往往抹煞了資料集體發揮的可能性。

問題迴避:這在藥物產業中最為明顯,藥廠無法進行情緒分析,因為病人服用某種實驗藥物後,只要一出現頭痛等副作用,就得回報 FDA。由於過程太麻煩,甚至可能碰上法律責任,因此藥廠傾向迴避此類措施,結果可能錯失珍貴的發現。

美國媒體 InformationWeek 編輯 Matt Asay 認為4,企業組織執行巨量資料專案時,也應注入「迭代」(iterate)的精神,別好高騖遠,從能夠快速發現問題的小規模開始進行實驗,並且邀請內部員工共同參與。利用大數據解決問題的關鍵,在於靈活且開放的數據基礎建設,讓員工不斷調整實際方案,直至他們的努力結出豐盈的果實,唯有如此,公司才能降低失敗的恐懼,真正嚐到巨量資料的甜美滋味。

巨匠電腦設計了程式/資料庫課程,教你大數據分析與應用、程式設計等等,快來巨匠電腦輕鬆學!

文章與圖片出處: http://www.inside.com.tw/2015/06/10/big-botched-data

巨匠電腦與聯成電腦比較~對巨匠電腦評價比較好~

電腦補習班比較:巨匠當然比較好

巨匠電腦評價相關~ 關於上過課與聽過課的評價差別**

上過課 V.S 聽過課 >> 關於巨匠電腦評價

評價好!學大數據不卡關 巨匠電腦分享精選Big Data相關用語

錚/

學大數據不卡關 巨匠電腦分享精選Big Data相關用語
大數據 (Big Data) 與資料科學 (Data Science) 已成為大眾耳熟能詳的詞彙,各行各業正在積極運用且開發大數據的價值,這些巨量資料也帶來了巨大的商機。

這時身處於「大數據時代」的我們,自然得對大數據有所認識,在這裏為大家列出了一些經常跟大數據一起出現的陌生用語,認識了這些大數據相關字彙,下次看大數據的相關文章就不會一直「卡」了。

1508061032330.jpg

Algorithm 演算法

出自於數學用語,在這裡指的是在有限步驟內,分析數據的具體方法,而且通常由軟體來執行。

AIDC 自動識別技術

AIDC(Automatic Identification and Data Capture)是將訊息數據自動識讀、自動輸入電腦的重要方法和手段,它是以電腦技術和通信技術為基礎的綜合性科學技術。常見的 AIDC 例如條碼(Bar codes)、磁條(magnetic strips)、生物識別(Biometrics)、RFID 等技術。

AWS 亞馬遜網路服務系統

2006 年 Amazon 開始以 Web 服務的形式向企業提供各種雲端運算服務,包括運算、儲存、資料庫、分析、應用程式和部署服務。現在許多科學家、開發人員以及各企業的技術人員都在利用 AWS (Amazon Web Services)進行大數據分析。

Avro 序列化系統

Avro 是 Hadoop 底下的子專案,是一個資料序列化系統(Data serialization system),被設計用來支援大量資料交換。

Behavioral analytics 行為分析

行為分析是指用科學方法分析環境刺激與行為之間的因果關係,藉著系統性的觀察來了解行為的變化原則,進而有系統的操作刺激,以達到行為的學習、塑造或改變。簡單來說,就是用一個有系統的方法去觀察、測量、收集客觀數據來分析目標的表現行為。

Big Data 大數據

大數據(or 巨量資料),顧名思義是指大量的資訊,當資料量龐大到資料庫系統無法在合理時間內進行儲存、運算、處理,分析成能解讀的資訊時,就稱為大數據。有興趣深入了解請參考《巨量資料的時代,用「大、快、雜、疑」四字箴言帶你認識大數據》以及《7 個你不可不知的大數據定義》

BI 商業智慧

BI (Business Intelligence) 指用現代資料倉儲技術、線上分析處理技術、數據挖掘進行數據分析,再以圖形化的界面或報表呈現以實現商業價值。

Cassandra 資料庫系統

是 Apache 軟體基金會底下的開源分布式 NoSQL 資料庫系統,適合用來管理巨量的結構化資料,由於其良好的可擴展性和性能,被 Digg、Twitter、Hulu、Netflix 等知名網站所採用。

CDR 詳細通聯記錄

CDRs (Call Detail Record)是電信網路的使用紀錄,例如通話時間、通話長度等資訊。CDR 是電信業者與企業分析網路營運和客戶行為的重要資源。

Clickstream Analytics 點擊流分析

點擊流(Clickstream)就是使用者在網頁間來來去去的點選記錄,也可以分成 Upstream –– 進入這個網站的「來源」,以及 Downstream —— 拜訪完這個網站之後的「去向」。對於網路行銷跟搜尋引擎來說,點擊流分析是十分重要的參考。

Cloud Computing 雲端運算

雲端運算(Cloud Computing)是一種將資料、工具及程式放到網際網路上處理的資源利用方式,是一種分散式電腦運算(Distrubted computing)的概念,也就是讓網路上不同的電腦同時幫你做一件事,可以大大的增加處理速度。

也因為所有資訊都被放置到網路的虛擬空間裡,工程師在繪製示意圖時常以一朵雲來代表這個虛擬空間,因而有了「雲端(Cloud)」一名。

Data Mining 資料探勘

顧名思義,就好比在地球上從一堆粗糙的石頭中進行地物探勘、尋找有價值的礦脈,資料探勘就是從巨量資料中提取出未知的、有價值的潛在資訊。

Data Modelling 資料建模

資料模式(Data Model)在資訊系統中指的是資料如何被表達、儲存及取用的方式,包括資料的格式、定義和屬性,資料之間的關係,以及資料的限制,而資料模式的設計過程就稱為「資料建模」。

Data Visualization 資料視覺化

是關於數據之視覺表現形式的研究,資料視覺化的技術可以幫助不同背景的工程人員溝通、理解,以達良好的設計與分析結果。

Data Experts 數據專家

數據專家就是能利用資料作出研究評估的專業人士,像是資料分析師、資料科學家、資料架構師等都可以被歸類為數據專家,其工作內容細分請參考《資料分析師?科學家?架構師?大數據人才的工作內容及年薪比較》

Exploratory Data Analysis 探索式分析

探索式資料分析是指在沒有標準流程跟方法的情況下,在現有的數據中找尋資料的結構和特點、探索潛藏於資料中的訊息,這種資料分析方法強調的是探索式的分析而非嚴謹的模式確認。

Hadoop 技術

Hadoop 是一個能夠儲存並管理大量資料的雲端平台,為 Apache 軟體基金會底下的一個開放原始碼、社群基礎、而且完全免費的軟體,Hadoop 的兩大核心功能 —— 儲存(Store)及處理(Process)資料所用到的分散式檔案系統 HDFS 跟 MapReduce 平行運算架構。Hadoop 被廣泛應用於大數據儲存和大數據分析,成為大數據的主流技術。有興趣深入了解請參考《認識大數據的黃色小象幫手 –– Hadoop》

Internet of Things 物聯網

物聯網(Iots)是一個全球化的網路基礎建設,透過資料擷取以及通訊能力以連結實體與虛擬物件,透過網際網路的發展,物連網可透過特定的機制,將所有裝置連結在一起,以供控制、偵測、識別,並交換所有的資訊。

NoSQL 資料庫系統

NoSQL 最早是指「No SQL」,號稱不使用 SQL 作為查詢語言的資料庫系統。但近來則普遍將 NoSQL 視為「Not Only SQL」,也就是「不只是 SQL」的意思,希望結合 SQL 優點並混用關聯式資料庫和 NoSQL 資料庫來達成最佳的儲存效果。

在巨量資料所帶動的潮流下,各種不同形態的NoSQL資料庫如雨後春筍般竄起,其中 MongoDB 是眾多 NoSQL 資料庫軟體中較為人熟知的一種。

Predictive Analytics 預測分析

是指透過預測模型、機器學習、資料挖掘等技術來分析現有和歷史的事實數據對未來作出預測的數據分析方法。

R 語言

R 是一個開放原始碼統計軟體,提供統計計算和繪圖功能,類似 Matlab 跟 SAS,而 R 不但免費 而且簡單易上手,近年來成為資料科學界裡的重要工具。

SaaS 軟體即服務

SaaS (Software-As-A-Service)是隨著網際網路技術和應用軟體的成熟而興起的一種軟體應用模式。SaaS 提供商將軟體統一部署在自己的伺服器上,藉由網路提供軟體給客戶,所以客戶不用購買軟體,而是根據需求向提供商訂購所需的服務,且客戶無需對軟體進行維護,服務提供商會全權管理和維護軟體;軟體廠商在向客戶提供網際網路應用的同時,也提供軟體的離線操作和本地數據存儲,讓客戶隨時隨地都可以使用其定購的軟體和服務。

對於許多小型企業來說,SaaS 是採用先進技術的最好途徑,它消除了企業購買、構建和維護基礎設施和應用程式的需要。

Terabyte (1 000 000 000 000 Bytes)

TB 為兆位元組,是資料量的分級,相當於 10^12 bytes。其他資料量分級如下:

  • Bytes (8 Bits)
  • Kilobyte (1000 Bytes)
  • Megabyte (1 000 000 Bytes)
  • Gigabyte (1 000 000 000 Bytes)
  • Terabyte (1 000 000 000 000 Bytes)
  • Petabyte (1 000 000 000 000 000 Bytes)
  • Exabyte (1 000 000 000 000 000 000 Bytes)
  • Zettabyte (1 000 000 000 000 000 000 000 Bytes)
  • Yottabyte (1 000 000 000 000 000 000 000 000 Bytes)

巨匠電腦設計了程式/資料庫課程,教你程式設計、大數據分析與應用等等,快來巨匠電腦輕鬆學!

文章與圖片出處: http://goo.gl/eLvDBb

 

巨匠電腦與聯成電腦比較~對巨匠電腦評價比較好~

電腦補習班比較:巨匠當然比較好

學妹救援記!!!因為我的巨匠電腦評價而行動

救援大作戰~ 巨匠電腦 評價好啦!!

巨匠電腦分享:Uber的大數據旅程沒有終點

錚/

巨匠電腦分享,Uber的大數據旅程沒有終點
從您打開手機、啟動 Uber 的那一刻起,這個 app 背後龐大的系統就開始記錄你的資料,叫車的地點,司機前來接你花費的時間,整趟路程的行進距離、路徑與總時程,最終抵達的目的地。

如您一樣的千百萬名乘客,在近 300 座城市、每天平均百萬趟次、截至 2014 年 1.4 億趟次,累積起來的巨量資料,讓 Uber 成了一家名符其實的大數據公司。

服務的根基:配對、共乘、價格

1507271040050.png

在 Uber 的工程團隊裡面,有 15 個人專職負責數據分析的工作。他們是你手機中精準計算「司機將於 5 分鐘之後抵達」的功臣,也是惡名昭彰的浮動定價操縱者,Uber 駕駛握有的熱點地圖,亦由這個團隊生成。

從使用者與駕駛蒐集到的資料,Uber 得以開發演算法分析供需關係,他們必須確保在各個區域中的每個時段,都有足夠的司機數量可以承接所有使用者的需求。在這個過程中,Uber 為雙方創造了價值:乘客能夠氣定神閒在幾分鐘之內搭上一台黑頭車,駕駛也不必在街頭亂繞碰運氣,app 在手,隨時會有生意上門。

另一方面,Uber 共乘服務 UberPool 雖然被許多國家嚴加管制,但 CEO Travis Kalanick 聲稱,這項共乘服務能在未來幾年,讓倫敦街道少掉 1/3 的車輛,解決惱人的交通堵塞問題。UberPool 能夠找到路線類似的幾名乘客,安排同一個司機順路接送。根據 Uber 部落格,推出 UberPool 的原因也是因為他們從數據中發現,在紐約有大量的使用者上車、下車的地點與時間其實都很相近,因此推出共乘服務是很自然而然的策略。

偶爾遇到耶誕夜、跨年、颳風下雨的日子,急著搭車參加派對或返家的時刻,打開 Uber 卻赫然發現價格漲了 4.5 倍,這也是大數據演算即時交通狀況與旅程時間,在叫車使用者突然暴增時,調漲價格吸引更多司機上街消化需求。

大數據非神話,別用它來使壞

不過,數據畢竟缺乏人性,開趴節慶要消費者多付點代價是合理的,然而過去就曾發生過紐約暴風雪、雪梨挾持人質等不幸事件,大批人們匆忙逃命之餘,Uber 價格照漲不誤,被罵得狗血淋頭,每每造成公關危機。

畢竟,大數據不是神話,它服務的終歸是人,還是有賴各部門協調適時按照各種不同情況反映。只是 Uber 這家公司一直以作風大膽著稱,雖然「自動化」帶來教訓,但 Uber 居然又自己挖坑給自己跳:毫不遮掩他們怎麼分析使用者的數據。

今年初 Uber 發表了一篇「榮耀之旅」的調查,文案寫著「我知道,我們不是你們生命中的唯一愛人,我們也知道,你們會在別的地方尋找愛情」——Uber 對使用者的數據進行過濾,專門挑選夜晚 10 點到凌晨 4 點,在 4-6 個鐘頭內連續叫車的使用者,記錄他們的上下車地點,繪製成「一夜情地圖」,引發軒然大波,Uber 隨即撤掉該篇部落格文章。

真正的金礦:把使用者數據賣給其他企業

縱使爭議多,仍不妨礙 Uber 擴張全球版圖的野心,當然,也不構成他們深度利用使用者數據的絆腳石。

用 Uber 用得很兇的富比士雜誌特約作者 Ron Hirson 描述,現在全世界只有四個人/公司掌握他每分每秒的行蹤,一個是他妻子,一個是 Siri 語音助理背後的蘋果公司,一個是美國老大哥國安局 NSA,另外一個就是 Uber 了。他住哪裡、於哪裡工作、在哪裡用餐、到哪裡旅行、所有他曾造訪的地點,全逃不過 Uber 的法眼。

「我不再只是一名乘客或旅人,而是一座大數據的金礦。」Ron Hirson 形容 Uber 將轉變為一家與 Google、Facebook、Visa 等企業,使用從你我身上挖掘出來的大量資訊打造新服務,並且把這些數據賣給其他公司,賺取營收。

最近 Uber 就和美國高級連鎖飯店集團喜達屋合作,使用者可以把自己的 Uber 帳戶與喜達屋會員帳戶聯繫起來,搭乘 Uber 的同時也可獲得喜達屋的積分,交換條件是把自己所有 Uber 的帳戶,包括姓名、email、搭乘 Uber 的所有行為與路線,完完整整交給喜達屋。於是,當作者飛往西雅圖出差,坐上 Uber 抵達一家「非喜達屋集團」旗下的飯店,他們就會同步收到通知,得知自己痛失一名客戶,下次就會搶先以贈送優惠等方式,殷殷期待 Uber 送來這位曾經錯過的客戶。

Uber 可以和航空公司、餐廳、夜店、酒吧等地展開類似的合作模式,讓合作公司可以「預知」你的行程,擄獲更多潛在客戶。使用者對 Uber 的重度依賴,也為 Uber 累積大量可貴的資料,它知道每座城市最受歡迎的餐廳與酒吧或玩樂地點,如果使用者也願意交出自己的私人資料換取優惠,這就表示 Uber 的「大數據」技術不只發揮在核心業務上,更能在營收上創造額外的巨大貢獻。

巨匠電腦開設了程式/資料庫課程,教你程式設計、大數據的應用與分析等等,快來巨匠電腦輕鬆學!

文章與圖片出處: http://www.inside.com.tw/2015/07/17/uber-big-data

 

【程式/資料庫課程】Big Data實務分析與應用課程 巨匠電腦跟上時代

【程式/資料庫見證】巨匠電腦學員加強職場競爭力 選擇進修再出發

巨匠電腦分享,Uber的大數據旅程沒有終點

巨匠電腦分享,Yipit 創辦人:coding不是工程師的專利,每個人都要學習程式語言