程式/資料庫課程 Archives - 第 2 頁，總計 2 頁 - Dreview巨匠電腦退費100%完整流程

錚／

巨匠電腦密技：想挖出 Big Data 的秘密，這 10 個程式語言你不能不懂。
隨著 Big Data 熱潮持續延燒，幾乎每個產業都有如洪水般傾瀉的資訊，面對上萬筆的顧客瀏覽紀錄、購買行為資料，如果要用 Excel 來進行資料處理真是太不切實際了，Excel 相較於其他統計軟體的功能已相去甚遠；但如果只會操作統計軟體而不會用邏輯分析 Data 背後的涵義與事實現況相應證的話，那也不過只能做資料處理，替代性很高的工作，而無法深入規劃策略的核心。

當然，基本功是最不可忽略的環節，想要成為資料科學家，對於這幾個程式你應該要有一定的認識：

若要列出所有程式語言，你能忘記其他的沒關係，但最不能忘的就是 R。從 1997 年悄悄地出現，最大的優勢就是它免費，為昂貴的統計軟體像是 Matlab 或 SAS 的另一種選擇。

但是在過去幾年來，它的身價大翻轉，變成了資料科學界眼中的寶。不只是木訥的統計學家熟知它，包括 Wall Street 交易員、生物學家，以及矽谷開發者，他們都相當熟悉 R。多元化的公司像是 Google、Facebook、美國銀行以及 New York Times 通通都使用 R，它的商業效用持續提高。

R 的好處在於它簡單易上手，透過 R，你可以從複雜的資料集中篩選你要的資料，從複雜的模型函數中操作資料，建立井然有序的圖表來呈現數字，這些都只需要幾行程式碼就可以了，打個比方，它就像是好動版本的 Excel。

R 最棒的資產就是活躍的動態系統，R 社群持續地增加新的軟件包，還有以內建豐富的功能集為特點。目前估計已有超過 200 萬人使用 R，最近的調查顯示，R 在資料科學界裡，到目前為止最受歡迎的語言，佔了回覆者的 61%（緊追在後的是 39% 的 Python）。

它也吸引了 Wall Street 的注目。傳統而言，證券分析師在 Excel 檔從白天看到晚上，但現在 R 在財務建模的使用率逐漸增加，特別是視覺化工具，美國銀行的副總裁 Niall O’Conno 說，「R 讓我們俗氣的表格變得突出」。

在資料建模上，它正在往逐漸成熟的專業語言邁進，雖然 R 仍受限於當公司需要製造大規模的產品時，而有的人說他被其他語言篡奪地位了。

「R 更有用的是在畫圖，而不是建模。」頂尖數據分析公司 Metamarkets 的 CEO，Michael Driscoll 表示，「你不會在 Google 的網頁排名核心或是 Facebook 的朋友們推薦演算法時看到 R 的蹤影，工程師會在 R 裡建立一個原型，然後再到 Java 或 Python 裡寫模型語法」。

舉一個使用 R 很有名的例子，在 2010 年時，Paul Butler 用 R 來建立 Facebook 的世界地圖，證明了這個語言有多豐富多強大的視覺化資料能力，雖然他現在比以前更少使用 R 了。

「R 已經逐漸過時了，在龐大的資料集底下它跑的慢又笨重」Butler 說。

所以接下來他用什麼呢？

Python

如果說 R 是神經質又令人喜愛的 Geek，那 Python 就是隨和又好相處的女生。

Python 結合了 R 的快速、處理複雜資料採礦的能力以及更務實的語言等各個特質，迅速地成為主流，Python 比起 R，學起來更加簡單也更直觀，而且它的生態系統近幾年來不可思議地快速成長，在統計分析上比起 R 功能更強。

Butler 說，「過去兩年間，從 R 到 Python 地顯著改變，就像是一個巨人不斷地推動向前進」。

在資料處理範疇內，通常在規模與複雜之間要有個取捨，而 Python 以折衷的姿態出現。IPython Notebook（記事本軟體）和 NumPy 被用來暫時存取較低負擔的工作量，然而 Python 對於中等規模的資料處理是相當好的工具；Python 擁有豐富的資料族，提供大量的工具包和統計特徵。

美國銀行用 Python 來建立新產品和在銀行的基礎建設介面，同時也處理財務資料，「Python 是更廣泛又相當有彈性，所以大家會對它趨之若鶩。」O’Donnell 如是說。

然而，雖然它的優點能夠彌補 R 的缺點，它仍然不是最高效能的語言，偶爾才能處理龐大規模、核心的基礎建設。Driscoll 是這麼認為的。

Julia

今日大多數的資料科學都是透過 R、Python、Java、Matlab 及 SAS 為主，但仍然存在著鴻溝要去彌補，而這個時候，新進者 Julia 看到了這個痛點。

Julia 仍太過於神秘而尚未被業界廣泛的採用，但是當談到它的潛力足以搶奪 R 和 Python 的寶座時，資料駭客也難以解釋。原因在於 Julia 是個高階、不可思議的快速和善於表達的語言，比起 R 要快的許多，比起 Python 又有潛力處理更具規模的資料，也很容易上手。

「Julia 會變的日漸重要，最終，在 R 和 Python 可以做的事情在 Julia 也可以」。Butler 是這麼認為的。

就現在而言，若要說 Julia 發展會倒退的原因，大概就是它太年輕了。Julia 的資料社區還在初始階段，在它要能夠和 R 或 Python 競爭前，它還需要更多的工具包和軟件包。

Driscoll 說，它就是因為它年輕，才會有可能變成主流又有前景。

Java

Driscoll 說，Java 和以 Java 為基礎的架構，是由矽谷裡最大的幾家科技公司的核心所建立的，如果你從 Twitter、Linkedin 或是 Facebook 裡觀察，你會發現 Java 對於所有資料工程基礎架構而言，是非常基礎的語言。

Java 沒有和 R 和 Python 一樣好的視覺化功能，它也不是統計建模的最佳工具，但是如果你需要建立一個龐大的系統、使用過去的原型，那 Java 通常會是你最基的選擇。

Hadoop and Hive

為了迎合大量資料處理的需求，以 Java 為基礎的工具群興起。Hadoop 為處理一批批資料處理，發展以 Java 為基礎的架構關鍵；相較於其他處理工具，Hadoop 慢許多，但是無比的準確和可被後端資料庫分析廣泛使用。和 Hive 搭配的很好，Hive 是基於查詢的架構下，運作的相當好。

Scala

又是另一個以 Java 為基礎的語言，和 Java 很像，對任何想要進行大規模的機械學習或是建立高階的演算法，Scala 會是逐漸興起的工具。它是善於呈現且擁有建立可靠系統的能力。

「Java 像是用鋼鐵建造的；Scala 則是讓你能夠把它拿進窯烤然後變成鋼的黏土」Driscoll 說。

Kafka and Storm

說到當你需要快速的、實時的分析時，你會想到什麼？Kafka 將會是你的最佳夥伴。其實它已經出現五年有了，只是因為最近串流處理興起才變的越來越流行。

Kafka 是從 Linkedin 內誕生的，是一個特別快速的查詢訊息系統。Kafka 的缺點呢？就是它太快了，因此在實時操作時它會犯錯，有時候會漏掉東西。

魚與熊掌不可兼得，「必須要在準確度跟速度之間做一個選擇」，Driscoll 說。所以全部在矽谷的科技大公司都利用兩個管道：用 Kafka 或 Storm 處理實時數據，接下來打開 Hadoop 處理一批批處理資料系統，這樣聽起來有點麻煩又會有些慢，但好處是，它非常非常精準。

Storm 是另一個從 Scala 寫出來的架構，在矽谷逐漸大幅增加它在串流處理的受歡迎程度，被 Twitter 併購，這並不意外，因為 Twitter 對快速事件處理有極大的興趣。

Matlab

Matlab 可以說是歷久不衰，即使它標價很高；在非常特定的利基市場它使用的相當廣泛，包括密集的研究機器學習、信號處理、圖像辨識等等。

Octave

Octave 和 Matlab 很像，除了它是免費的之外。然而，在學術信號處理的圈子，幾乎都會提到它。

GO 是另一個逐漸興起的新進者，從 Google 開發出來的，放寬點說，它是從 C 語言來的，並且在建立強大的基礎架構上，漸漸地成為 Java 和 Python 的競爭者。

這麼多的軟體可以使用，但我認為不見得每個都一定要會才行，知道你的目標和方向是什麼，就選定一個最適合的工具使用吧！可以幫助你提升效率又達到精準的結果。

巨匠電腦也設計了程式/資料庫的課程，除了教你程式設計、Big Data實務分析與應用，另外也有Java OCP JP程式設計認證等等，快來巨匠電腦輕鬆學輕鬆會！

文章與圖片出處: http://goo.gl/ZuEB9w

【程式/資料庫課程】Big Data的應用你瞭解了嗎？巨匠電腦告訴你

【程式/資料庫課程】巨匠電腦分享，「大數據分析」人才為什麼這麼搶手？

【程式/資料庫課程】巨匠電腦密技：9個必殺絕技殺進Big Data市場

【程式/資料庫課程】巨匠電腦分享，職場新寵兒！大企業爭搶「數據分析師」

Dreview巨匠電腦退費100%完整流程

巨匠電腦課程退費評價分享電腦學習相關技能

Tag: 程式/資料庫課程

【程式/資料庫課程】巨匠電腦密技：想挖出Big Data的秘密，十個你不能不懂的程式語言