大数据-黑马
- 聚合 (Aggregation) – 搜索、合并、显示数据的过程
- 分类分析 (Classification analysis) – 从数据中获得重要的相关性信息的系统化过程; 这类数据也被称为元数据(meta data),是描述数据的数据
- 云计算 (Cloud computing) – 构建在网络上的分布式计算系统,数据是存储于机房外的(即云端)
- 聚类分析 (Clustering analysis) – 它是将相似的对象聚合在一起,每类相似的对象组合成一个聚类(也叫作簇)的过程。这种分析方法的目的在于分析数据间的差异和相似性
- 复杂结构的数据 (Complex structured data) – 由两个或多个复杂而相互关联部分组成的数据,这类数据不能简单地由结构化查询语言或工具(SQL)解析
- 并发 (Concurrency) – 同时执行多个任务或运行多个进程
- 仪表板 (Dashboard) – 使用算法分析数据,并将结果用图表方式显示于仪表板中
- 数据聚合工具 (Data aggregation tools) – 将分散于众多数据源的数据转化成一个全新数据源的过程
- 提取-转换-加载 (ETL: Extract, Transform and Load) – 是一种用于数据库或者数据仓库的处理过程。即从各种不同的数据源提取(E)数据,并转换(T)成能满足业务需要的数据,最后将其加载(L)到数据库
- 故障切换 (Failover) – 当系统中某个服务器发生故障时,能自动地将运行任务切换到另一个可用服务器或节点上
- 容错设计 (Fault-tolerant design) – 一个支持容错设计的系统应该能够做到当某一部分出现故障也能继续运行
- 非关系型数据库(NoSQL):这个词听起来几乎就是「SQL,结构化查询语言」的反义词,SQL 是传统的关系型数据管理系统(RDBMS)必需的,但是 NOSQL 实际上指的是「不止 SQL」。NoSQL 实际上指的是那些被设计来处理没有结构(或者没有「schema」,纲要)的大量数据的数据库管理系统。NoSQL 适合大数据系统,因为大规模的非结构化数据库需要 NoSQL 的这种灵活性和分布式优先的特点。
- Spark(Apache Spark):Apache Spark 是一个快速的内存数据处理引擎,它能够有效地执行那些需要迭代访问数据库的流处理、机器学习以及 SQL 负载。Spark 通常会比我们前面讨论过的 MapReduce 快好多。
- 流处理(Stream processing):流处理被设计来用于持续地进行流数据的处理。与流分析技术(指的是能够持续地计算数值和统计分析的能力)结合起来,流处理方法特别能够针对大规模数据的实时处理。
- 负载均衡(Load balancing):为了实现最佳的结果和对系统的利用,将负载分发给多个计算机或者服务器。
平台、流量、去中心化的关系
平台:通过提供服务(开店,支付,发货,推荐)收费 流量:当天访问了多少用户 去中心化:本质:让平台进行合理分流。合理分发流量就是去中心化