CodeGym 目标第 20 级课程列表

分片
SQL & Hibernate
第 20 级，课程 0
1.1 什么是分片？如果你坚持谷歌，原来所谓的分区和所谓的分片之间有一个相当模糊的界限。大家随便叫什么就叫什么。有些人区分水平分区和分片。其他人说分片是某种水平分区。我没有找到一个单一的术语标准可以得到创始人的批准和 ISO 的认证。个人内心的信念大概是这样的：平均划分就是按照任意的方式“把基数切成块”。垂直分区- 按列。例如，有一个巨大的表，其中包含 60 列中的数十亿条记录。我们没有保留一个这样的巨型表，而是保留了至少 60 个每个有 20 亿条记录的巨型表——这不
可用
分片：反面
SQL & Hibernate
第 20 级，课程 1
如何进行选择，将一个表中的十亿条记录加入另一个表中的十亿条记录？
可用
大数据：MapReduce
SQL & Hibernate
第 20 级，课程 2
3.1 大数据一词的出现历史大数据这个词出现的时间相对较晚。谷歌趋势显示自 2011 年以来该短语的使用开始积极增长：同时，现在只有懒人不使用这个词了。尤其是，营销人员经常不恰当地使用该术语。那么大数据究竟是什么？由于我决定系统地陈述和突出这个问题，因此有必要定义这个概念。在我的实践中，我遇到了不同的定义：大数据是指超过 100GB 的数据（500GB、1TB，任何你喜欢的）。大数据是无法在 Excel 中处理的数据。大数据是无法在单台计算机上处理的数据。甚至这
可用
大数据：Hadoop
SQL & Hibernate
第 20 级，课程 3
4.1 Hadoop 概况 MapReduce 范式由 Google 于 2004 年在其文章MapReduce: Simplified Data Processing on Large Clusters中提出。由于提议的文章包含范例的描述，但缺少实现，雅虎的几位程序员提议将他们的实现作为 nutch 网络爬虫工作的一部分。您可以在 Hadoop 的历史：从 4 个节点到数据的未来一文中阅读有关 Hadoop 历史的更多信息。最初，Hadoop 主要是一种用于存储数据和运行
可用
大数据：开发 MapReduce 应用程序的技术和策略
SQL & Hibernate
第 20 级，课程 4
5.1 仅映射作业现在是时候描述各种技术，让您可以有效地使用 MapReduce 解决实际问题，并展示 Hadoop 的一些功能，这些功能可以简化开发或显着加快 MapReduce 任务在集群上的执行速度。我们记得，MapReduce 由 Map、Shuffle 和 Reduce 阶段组成。通常，Shuffle 阶段在实际任务中是最困难的，因为数据是在这个阶段排序的。事实上，有许多任务可以单独免除 Map 阶段。以下是此类任务的示例：数据过滤（例如Web服务器日志中的“
可用
大数据：HBase
SQL & Hibernate
第 20 级，课程 5
开始使用 Hbase 的最简单方法是使用 hbase shell 实用程序。它在任何 hbase 集群节点上安装 hbase 后立即可用。
可用