金牛网一尾中特
旗下產業: A產業/ A實習/ A計劃
全國統一咨詢熱線:400-0100-444
首頁 > 熱門文章 > 大數據分析 > 大數據分析Apache Spark的應用實例
大數據分析Apache Spark的應用實例
時間:2020-01-16來源:www.sohvvs.shop點擊量:作者:Sissi
時間:2020-01-16點擊量:作者:Sissi




  Apache Spark在實際應用中迅速獲得發展。加州大學伯克利分校的AMPLab于2009年開發了Spark,并于2010年將其開源。從那時起,它已發展成為大數據領域最大的開源社區之一,擁有來自50多個組織的200多位貢獻者。這個開放源代碼分析引擎以比MapReduce更快的速度處理大量數據而出類拔萃,因為數據被持久存儲在Spark自己的處理框架中。
 

  在考慮Hadoop生態系統中的各種引擎時,重要的是要了解每個引擎在某些用例下效果最佳,并且企業可能需要使用多種工具組合才能滿足每個所需的用例。話雖如此,這里是對Apache Spark的一些頂級用例的回顧。
 

一、流數據
 

  Apache Spark的關鍵用例是其處理流數據的能力。由于每天要處理大量數據,因此對于公司而言,實時流傳輸和分析數據變得至關重要。Spark Streaming具有處理這種額外工作負載的能力。一些專家甚至認為,無論哪種類型,Spark都可以成為流計算應用程序的首選平臺。提出此要求的原因是,Spark Streaming統一了不同的數據處理功能,從而使開發人員可以使用單個框架來滿足其所有處理需求。
 

  當今企業使用Spark Streaming的一般方式包括:
 

  1、流式ETL –在數據倉庫環境中用于批處理的傳統ETL(提取,轉換,加載)工具必須讀取數據,將其轉換為數據庫兼容格式,然后再將其寫入目標數據庫。使用Streaming ETL,在將數據推送到數據存儲之前,將對其進行連續的清理和聚合。
 

  2、數據充實 –這種Spark Streaming功能通過將實時數據與靜態數據相結合來充實實時數據,從而使組織能夠進行更完整的實時數據分析。在線廣告商使用數據充實功能將歷史客戶數據與實時客戶行為數據結合起來,并根據客戶的行為實時提供更多個性化和針對性的廣告。
 

  3、觸發事件檢測 – Spark Streaming使組織可以檢測到可能對系統內部潛在嚴重問題的罕見或異常行為(“觸發事件”)并做出快速響應。金融機構使用觸發器來檢測欺詐性交易并阻止其欺詐行為。醫院還使用觸發器來檢測潛在的危險健康變化,同時監視患者的生命體征-向正確的護理人員發送自動警報,然后他們可以立即采取適當的措施。
 

  4、復雜的會話分析 –使用Spark Streaming,與實時會話有關的事件(例如登錄網站或應用程序后的用戶活動)可以組合在一起并進行快速分析。會話信息還可以用于不斷更新機器學習模型。諸如Netflix之類的公司使用此功能可立即了解用戶在其網站上的參與方式,并提供更多實時電影推薦。
 

大數據分析

二、機器學習
 

  許多Apache Spark用例中的另一個是它的機器學習功能。
 

  Spark帶有用于執行高級分析的集成框架,該框架可幫助用戶對數據集進行重復查詢,這從本質上講就是處理機器學習算法。在此框架中找到的組件包括Spark的可擴展機器學習庫(MLlib)。MLlib可以在諸如聚類,分類和降維等領域中工作。所有這些使Spark可以用于一些非常常見的大數據功能,例如預測智能,用于營銷目的的客戶細分以及情感分析。使用推薦引擎的公司將發現Spark可以快速完成工作。
 

  網絡安全是Spark 機器學習功能的一個很好的商業案例。通過使用Spark堆棧的各種組件,安全提供程序可以對數據包進行實時檢查,以發現惡意活動的痕跡。在前端,Spark Streaming允許安全分析人員在將數據包傳遞到存儲平臺之前檢查已知威脅。到達存儲區后,數據包將通過其他堆棧組件(例如MLlib)進行進一步分析。因此,安全提供商可以在不斷發展的過程中了解新的威脅-始終領先于黑客,同時實時保護其客戶。
 

三、互動分析
 

  Spark最顯著的功能之一就是其交互式分析功能。MapReduce是為處理批處理而構建的,而Hive或Pig等SQL-on-Hadoop引擎通常太慢,無法進行交互式分析。但是,Apache Spark足夠快,可以執行探索性查詢而無需采樣。Spark還與包括SQL,R和Python在內的多種開發語言接口。通過將Spark與可視化工具結合使用,可以交互地處理和可視化復雜的數據集。
 

  下一版本的Apache Spark(Spark 2.0)將于今年的4月或5月首次亮相,它將具有一項新功能- 結構化流 -使用戶能夠對實時數據執行交互式查詢。通過將實時流與其他類型的數據分析相結合,預計結構化流將通過允許用戶針對Web訪問者當前會話運行交互式查詢來促進Web分析。它也可以用于將機器學習算法應用于實時數據。在這種情況下,將對舊數據進行算法訓練,然后將其重定向以合并新的數據,并在其進入??內存時從中學習。
 

四、霧計算
 

  盡管大數據分析可能會引起廣泛關注,但真正激發技術界想象力的概念是物聯網(IoT)。物聯網通過微型傳感器將對象和設備嵌入在一起,這些微型傳感器彼此之間以及與用戶進行通信,從而創建了一個完全互連的世界。這個世界收集了大量數據,對其進行處理,并提供革命性的新功能和應用程序供人們在日常生活中使用。但是,隨著物聯網的擴展,對大量,種類繁多的機器和傳感器數據進行大規模并行處理的需求也隨之增加。但是,利用云中的當前分析功能很難管理所有這些處理。
 

  那就是霧計算和Apache Spark出現的地方。
 

  霧計算將數據處理和存儲分散化,而不是在網絡邊緣執行這些功能。但是,霧計算為處理分散數據帶來了新的復雜性,因為它越來越需要低延遲,機器學習的大規模并行處理以及極其復雜的圖形分析算法。幸運的是,有了Spark Streaming等關鍵堆棧組件,交互式實時查詢工具(Shark),機器學習庫(MLib)和圖形分析引擎(GraphX),Spark不僅具有霧計算解決方案的資格。實際上,隨著物聯網行業逐漸不可避免地融合,許多行業專家預測,與其他開源平臺相比,Spark有可能成為事實上的霧基礎設施。
 

  現實世界中的火花
 

  如前所述,在線廣告商和諸如Netflix之類的公司正在利用Spark獲得見識和競爭優勢。其他也從Spark受益的著名企業是:
 

  Uber –這家跨國在線出租車調度公司每天都從其移動用戶那里收集TB級的事件數據。通過使用Kafka,Spark Streaming和HDFS構建連續的ETL管道,Uber可以在收集原始非結構化事件數據時將其轉換為結構化數據,然后將其用于進一步和更復雜的分析。
 

  Pinterest –通過類似的ETL管道,Pinterest可以利用Spark Streaming即時了解世界各地的用戶如何與Pins互動。因此,當人們瀏覽站點并查看相關的圖釘時,Pinterest可以提出更相關的建議,以幫助他們選擇食譜,確定要購買的產品或計劃前往各個目的地的行程。
 

  Conviva –這家流媒體視頻公司每月平均約有400萬個視頻供稿,僅次于YouTube。Conviva使用Spark通過優化視頻流和管理實時視頻流量來減少客戶流失,從而保持一致的流暢,高質量的觀看體驗。
 

  何時不使用Spark
 

  盡管它具有通用性,但這并不一定意味著Apache Spark的內存中功能最適合所有用例。更具體地說,Spark并非設計為多用戶環境。Spark用戶需要知道他們有權訪問的內存對于數據集是否足夠。添加更多的用戶使此操作變得更加復雜,因為用戶必須協調內存使用量才能同時運行項目。由于無法處理這種類型的并發,用戶將需要為大型批處理項目考慮使用備用引擎,例如Apache Hive。
 

  隨著時間的流逝,Apache Spark將繼續發展自己的生態系統,變得比以前更加通用。在大數據已成為規范的世界中,組織將需要找到最佳方式來利用它。從這些Apache Spark用例可以看出,未來幾年將有很多機會來了解Spark的真正功能。
 

  隨著越來越多的組織認識到從批處理過渡到實時數據分析的好處,Apache Spark的定位是可以在眾多行業中獲得廣泛而快速的采用。
 

  有興趣了解有關Apache Spark的更多信息,就加入AAA教育大數據分析團隊吧,優質的師資團隊值得你的到來,詳情請咨詢客服小姐姐。



 

?2007-2019/北京漫動者教育科技有限公司版權所有
備案號:京ICP備12034770號

?2007-2019/ www.sohvvs.shop 北京漫動者教育科技有限公司 備案號:京ICP備12034770號 監督電話:010-62568622 郵箱:[email protected]

金牛网一尾中特 河南快3今日开奖结 内蒙古快三走势图今天 股票配资门户联系方式 民生银行股票行情 广东麻将推倒胡牌型 广东体育11选5开 炒股六句口诀 快乐12四川快乐1 股票配资门户网站 小游戏上海麻将连连看