課程描述INTRODUCTION
快速了解大數(shù)據(jù)玩法
· 一線員工· 技術(shù)總監(jiān)· 項目經(jīng)理· 系統(tǒng)工程師· 軟件工程師
日程安排SCHEDULE
課程大綱Syllabus
課時一:概念綜述
1.大數(shù)據(jù)的定義由來和原因
1.大數(shù)據(jù)的6V特征
1.從數(shù)據(jù)庫,數(shù)據(jù)倉庫到大數(shù)據(jù)
1.大數(shù)據(jù)相關(guān)技術(shù)和處理
課時二:Hadoop生態(tài)圈、spark生態(tài)圈、搜索引擎概述
1.hadoop:HDFS、Map-Reduce、Hbase、Hive等
1.spark:scala、spark-SQL、spark-Streaming等
1.搜索引擎:lucene(solr)、ES
1.并發(fā)的機器學習工具:R-hadoop、spark-MLLIB、 spark-R、pyspark
課時三:存儲在hbase中的數(shù)據(jù)
1.NoSQL(key-value)
1.Hbase:安裝
1.行鍵與列簇
1.如何利用Hbase的特點存儲數(shù)據(jù)
1.應用程序如何訪問Hbase中的數(shù)據(jù)
1.數(shù)據(jù)遷移:sqoop
1.Hbase的應用場景
課時四:Hive:為用SQL的開發(fā)者留的活路
1.Hive:安裝(單用戶與多用戶)
1.Hive:基本操作
1.Hive:與典型的關(guān)系型數(shù)據(jù)庫的區(qū)別
1.如果“想慢”,你可以這樣…(不恰當使用hive的案例介紹)
1.Hive的應用場景
課時五:Spark各組件在衛(wèi)生領(lǐng)域的應用
1.Hadoop*的特點是什么?
1.Spark概述與安裝
1.Scala:你可以一直“點”下去
1.RDD:“映射”、“轉(zhuǎn)換”解決一切
1.spark-SQL
1.spark-streaming
1.spark的其他組件
1.應用場景
課時六:機器學習算法介紹—I
1.綜述(人工智能、數(shù)據(jù)挖掘、機器學習、機器智能、大數(shù)據(jù):這些詞的確切含義)
1.監(jiān)督學習、無監(jiān)督學習與強化學習
1.工具:R、Python等
1.決策樹詳解(熵、貪心法、連續(xù)的和離散的)
1.神經(jīng)網(wǎng)絡(luò)詳解(神經(jīng)元、激勵函數(shù)、前饋神經(jīng)網(wǎng)絡(luò)的BP算法,其他神經(jīng)網(wǎng)絡(luò))
課時七:機器學習算法介紹—II
1.關(guān)聯(lián)規(guī)則詳解(頻繁項集、Apriori、支持度、置信度)
1.聚類詳解(k-means、k-medoid)
1.常見算法的簡述(Na?ve-Bayes、k-NN、HMM、SVM等)
轉(zhuǎn)載:http://szsxbj.com/gkk_detail/65026.html
已開課時間Have start time
- 葉梓