內容
- 什麼是flume
- flume 拓撲結構
- flume 采集機制原理
- 應用
1.什麼是flume
- 無論數據來自什麼企業,或是多大量級,通過部署Flume,可以確保數據都安全、及 時地到達大數據平臺,用戶可以將精力集中在如何洞悉數據上。
- Flume由Cloudera公司開發,是一個分佈式、高可靠、高可用的海量日志采集、聚合、傳輸的系統。
- Flume支持在日志系統中定制各類數據發送方,用於采集數據;
- Flume提供對數據進行簡單處理,並寫到各種數據接收方的能力。
- 簡單的說,Flume是實時采集日志的數據采集引擎。
- 分佈式:flume分佈式集群部署,擴展性好
- 可靠性好: 當節點出現故障時,日志能夠被傳送到其他節點上而不會丟失
- 易用性:flume配置使用較繁瑣,對使用人員專業技術要求高
- 實時采集:flume采集流模式進行數據實時采集
- dataX:阿裡開源軟件異構數據源離線同步工具,沒有界面,以執行腳本方式運行
- Xkettle:開源ETL工具,有可視化設計器進行可視化操作,使用簡單
- Logstash:應用程序日志、事件的傳輸、處理、管理和搜索的平臺。可以用它來統 一對應用程序日志進行收集管理,提供瞭Web接口用於查詢和統計。
- Scribe:Facebook開源的日志收集系統,它能夠從各種日志源上收集日志,存儲到 一個中央存儲系統(可以是NFS,分佈式文件系統等)上,以便於進行集中統計分析處理。
- sqoop:待更新
2. Flume體系結構
虛線內是一個agent,本質是一個JVM
內部組件: source、channel、sink