<th id="l0kf1"></th>

<dd id="l0kf1"><center id="l0kf1"></center></dd>

    1. <span id="l0kf1"></span>
    2. 更多課程 選擇中心
      Java培訓

      400-111-8989

      Java培訓 > Java教程  > 正文

      達內大數據框架階段培訓課程大綱

      • 發布:Java培訓
      • 來源:Java教程
      • 時間:2019-04-23 11:38

      大數據高并發基礎

      大數據 java 加強

      學習 java 中關于Concurrent 高并發包、NIO、序列化反序列化(AVRO)、RPC 等相關知識,掌握zookeeper、sqoop 等大數據領域常用工具原理及使用,為后續大數據課程學習、分布式理論理解打下基礎。

      大數據離線數據分析

      Hadoop

      Hadoop 是知名的大數據處理工具,包括分布式數據存儲系統HDFS、分布式數據計算框架 MapReduce 和資源協調框架Yarn 三大組件。 HDFS:詳細講解 HDFS 使用方式、存儲機制、可靠性保證、上傳、下載、刪除等實現原理、 Java 開發Api、開發插件等內容 MapReduce: 詳細講解MR 理論基礎、開發方式、序列化機制、分區機制、Combiner 機制、shuffle 詳細流程、MR 案例、MR 性能優化等內容 Yarn: 介紹 Yarn 資源協調框架的基本原理、使用及調優。 Hadoop 是大數據生態中知名的組件,在行業中應用廣泛,是學習大數據重要的技術之一。

      Flume

      Flume 是大數據生態環境中流行的日志收集框架,基于其靈活的可廣泛配置的使用方式及優良的效率被廣泛的應用在大數據生產環境中。課程中詳細講解Channel、Sink、Selector、Interceptor、Processor 等組件的使用。并通過美團應用案例,展示了 Flume 企業級應用場景的實現方式,并在后續項目中有大量的應用。

      Hive

      Hive 是基于 Hadoop 的數據倉庫工具,通過將結構化的數據文件映射為 HIVE 中的表,并提供類 SQL 的語法實現數據處理。學習內容包括hive 的安裝配置、hive 的元數據庫、hive 的內部表外部表、hive 的分區表、hive 的分桶表、hive 的語法、hive 的UDF 等內容

      Hbase

      HBase 是一種分布式、面向列的基于 hadoop的非關系型數據庫,適合存儲半結構化、非結構化的數據,基于其優良的設計,可以提供良好的實時數據存取能力,并提供更好的橫向擴展能力,在企業級大數據開發中占用重要地位。課程中詳細介紹了 Hbase 使用方式、Hbase 邏輯結構、Hbase 的理論基礎 -LSM 樹、Hbase 的實現原理、Hbase 表設計原則等內容,從理論到實踐講解 Hbase 相關知識

      Zebra 項目

      項目名稱:zebra 電信日志數據分析項目業務背景:電信行業通過大量的電信基站為移動設備提供 3G、4G 網絡信號,在移動設備通過基站訪問網絡的過程中,基站將會記錄所有的訪問數據,此項目通過大數據離線分析技術分析這些日志,得到相關的業務結論指導行業改進。學習目標:通過學習 zebra 電信日志分析項目,掌握企業級大數據離線分析技術應用的技術: flume 收集日志,采用三層結構實現日志收集聚集最終持久化到 hadoop hdfs 中并實現日志收集過程中的失敗恢復及負載均衡;hadoop hdfs 分布式存儲收集到的日志數據,hadoop mapreduce 進行日志清洗、格式轉換; hive 進行日志處理、業務規則計算,按照不同維度分時段統計應用受歡迎程度、網站受歡迎程度、小區上網能力、小區上網喜好等信息; sqoop 技術將處理完成的結果導出到關系型數據庫;ECharts 通過web 技術實現結果數據的可視化; Zookeeper 作為集群協調、集群狀態監控工具。

      大數據實時數據分析

      Storm

      Storm 是大數據行業中流行的大數據實時分析框架之一,是一個分布式的、高容錯的實時計算系統,能夠實現具有可靠性保障的分布式實時數據處理,在行業中廣泛應用。在課程中講解包括 Storm 基礎、可靠性保證、并發控制、實現原理、Topology、 StormSpout、StormBolt、StormStream、行業應用等相關內容。

      Kafka

      Kafka 是一種具有高吞吐能力的分布式發布訂閱消息系統,具有傳統消息隊列相關特性,此外具有一些獨特的設計,可以實現分布式持久化的消息隊列,在實時處理過程中通常用做數據緩存,為實時處理系統提供緩沖能力。在課程中包括 kafka 的安裝配置、基本概念、實現原理、可靠性保障等相關理論及應用相關內容。

      分布式編程思想

      大數據問題的本質是海量數據,大數據解決方案的核心理念是分布式,分布式場景有其獨特的問題、解決方案、設計思想,本節通過討論分布式在各種技術背景、業務場景下的應用,揭示分布式技術的原理及應用原則。

      網站流量分析項目

      項目名稱:電商網站流量分析項目學習目標:通過電商網站流量分析項目掌握企業級大數據離線分析、實時分析的的架構設計、技術應用及業務背景:網站在運營過程中除了產生大量的業務數據外還會產生大量的用戶行為數據,包括用戶訪問網站時鼠標點擊、瀏覽器信息、會話信息、語言環境、所處地域等相關信息,網站流量分析項目通過大數據離線、實時分析技術,分析用戶產生的大量行為數據,得到網站運行方關注的各項業務指標數據,引導網站改進其頁面布局、廣告投放等相關運營行為,提升網站運行效率。應用的技術:通過在網站的前臺頁面中進行 js 埋點收集用戶訪問網站的行為信息;通過Ngnix 和 Tomcat 服務器集群收集用戶產生的行為數據,并通過 Flume來進行收集、匯聚數據并分發到HDFS 和 Kafka 為離線分析和實時分析提供數據來源;離線分析中通過 MR、Hive 等技術實現業務指標的離線計算,并通過 Sqoop 導出結果數據到關系型數據庫;實時分析中通過 Storm 消費 Kafka 中的數據實現實時計算,中間數據通過 HBase 進行存儲,結果數據通過JDBC 寫出到關系型數據庫中;最終通過大數據可視化技術將結果數據展示給最終用戶。計算指標包括網站的 PV、UV、VV、Bounce Rate、獨立 ip、平均在線時長、新獨立訪客、訪問深度等信息。整個系統分為數據收集、數據傳遞、數據分析三部分,數據分析又分為離線數據分析和實時數據分析,應對數據分析的不同的實時性需求。

      大數據內存計算框架

      SCALA

      Scala 是一門函數式編程的語言,是學習 Spark 的基礎,并在其他場景下也有廣泛應用是一門多范式的編程語言,集成面向對象編程和函數式編程的各種特性。 Scala 視一切數據類型皆對象,且支持閉包、lambda 等特性,語法簡潔。Scala 使用Actor 作為并發模型,與 Akka 框架自然契合,是一種基于數據共享為主要機制的并發開發模式。 Scala 語言靈活、代碼簡介、高并發處理機制優良,特別適合于復雜的函數型計算,是 Spark 學習的基礎語言。 Scala 的語法內容包括:方法定義、變量、字符串、泛型、Option、集合、程序控制結構、匿名函數、類、Class Case 樣例類。模式匹配、traits、extends、函數式編程、高階函數、AKKA 編程等內容。學員學習完成后可以掌握 Scala 這門語言,并理解函數式編程這種編程范式。

      SPARK

      知名的內存計算框架,可用來構建大型的、低延遲的數據分析應用程序,在迭代處理計算方面比 Hadoop 快 100 倍以上。 Spark 構建了自己的整個大數據處理生態系統,如流處理、圖計算、機器學習、類 SQL 查詢等方面都有自己的技術,并且是 Apache 頂級項目。基于其良好的設計、超強的性能、良好的編程接口、豐富的生態體系,在大數據開發領域發展迅速,特別是最近幾年在國內的大數據開發領域中得到了廣泛的應用。內容包括SparkCore:Spark 核心計算模型。包括 Spark 基礎、RDD 彈性分布式數據集、DAG 有向無環圖、Spark 原理(懶執行機制、寬依賴、窄依賴、Transformation 類型方法、Action 類型方法、流水線優化、Shuffle 過程等)、Spark 中的函數等內容,通過學習可以掌握 Spark 心計算機制。 SparkSQL:基于 Spark 的 SQL 編程接口,可以實現在 Spark 中通過類 SQL 的方式操作數據,因其基于性能優良的 Spark 工作,性能相對于 Hive 有大幅提升 SparkStreaming:基于Spark 實現的流式計算,相對于 Storm 在吞吐率、可靠性保證、開發便利程度上都有質的飛躍 SparkMllib:基于 Spark 的機器學習相關組件,可以實現海量數據下的機器學習。

      推薦系統項目

      學習目標:通過學習推薦系統項目掌握推薦系統相關算法、了解海量數據場景下自動化推薦技術、提升綜合運用大數據技術的能力、提高對算法、WEB 技術、互聯網架構等技術的應用能力,實現企業級大數據開發的架構設計、需求分析、業務實現等環節,掌握大數據技術的綜合運用能力。業務背景:在線學習網站在運營時產生了大量用戶的訪問、瀏覽、購買課程、支付等相關數據,通過這些數據為用戶精準推薦相關產品,提升網站的用戶體驗。應用的技術:綜合應用之前所學技術實現,包括大數據離線分析技術、大數據實時分析技術、WEB 技術、可視化技術、算法、機器學習等技術實現該項目。主要過程包括:收集業務系統數據庫中結構化數據、日志系統中的行為數據,構建基于hive 的數據倉庫,基于數據倉庫中的基礎數據,利用推薦算法實現基于商品的推薦系統,為在線學習網站高效推薦提供支持。

      Python 爬蟲、數據可視化

      Python 語言及爬蟲

      Python 是一種腳本化語言 , 具有簡單易用、天然開源、生態豐富、應用范圍廣泛的特點。在大數據技術中,數據獲取是第一步驟,其中利用爬蟲獲取互聯網中公開的數據是一種非常常見的場景。 Python 爬蟲技術在爬蟲領域具有很廣泛的應用, 課程中將介紹Python 的基本語法、基于 Python 的爬蟲實現、Scrapy、PySpider 等爬蟲框架,使學員具有基于 Python 的爬蟲開發能力。

      數據可視化

      數據可視化技術是大數據處理過程中的結果展示相關技術,通過相關工具將分析結果展示為直觀的、美觀的圖形頁面,為最終用戶提供展內容包括:利用 Echarts 等 Web 前端技術實現大數據可視化利用相關大數據可視化工具實現大數據可視化等內容

      預約申請免費試聽課

      填寫下面表單即可預約申請免費試聽!怕錢不夠?可就業掙錢后再付學費! 怕學不會?助教全程陪讀,隨時解惑!擔心就業?一地學習,可全國推薦就業!

      上一篇:達內大數據互聯網架構階段培訓課程大綱
      下一篇:達內數據挖掘與機器學習算法階段(線上教學)培訓課程大綱
      2021版Java學習路線圖(超詳細)

      2021版Java學習路線圖(超詳細)

      Java面向對象系列全套視頻教程(更新中...)

      Java面向對象系列全套視頻教程(更新中...)

      從事Java后端開發,要學習哪些知識和技能?

      從事Java后端開發,要學習哪些知識和技能?

      Java后端開發需要掌握哪些技能?

      Java后端開發需要掌握哪些技能?

      • 掃碼領取資料

        回復關鍵字:視頻資料

        免費領取 達內課程視頻學習資料

      • 視頻學習QQ群

        添加QQ群:1143617948

        免費領取達內課程視頻學習資料

      Copyright ? 2021 Tedu.cn All Rights Reserved 京ICP備08000853號-56 京公網安備 11010802029508號 達內時代科技集團有限公司 版權所有

      選擇城市和中心
      貴州省

      福建省

      • 達內廈門軟件園中心
      廣西省

      海南省

      久草在線歐美激情,久草在線國產自拍,久草在線日韓無碼,久草在線 百度 好搜 搜狗
      <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <文本链> <文本链> <文本链> <文本链> <文本链> <文本链>