Bourne's Blog - A Full-stack & Web3 Developer

「big data era」

Scala Programming - Part 2

Formatting 1 2 3 4 5 6 7 8 9 10 11 scala> "Application %s".format("Hello world") val res118: String = Application Hello world scala> "age %d".format(5) val res119: String = age 5 scala> ...

Scala Programming - Part 1

Array/List/Set have some common features and functions, such as: size min max sum head tail concat forall foreach map filter find mkString 1. Collection 1.1 Array 1 2 3...

Hive Windowing and Analytics Function - Part 3

Hive Windowing and Analytics Function - Part 3 1.1 订单表统计 已知一个表orders,有如下字段:dt(date),order_id,user_id,amount。 数据样例:2021-01-01,10029028,1000003251,33.57。 1.1.1 给出 2021年每个月的订单数、用户数、总成交金额 思路: 先根据日期计...

Hive Windowing and Analytics Function - Part 2

Hive Windowing and Analytics Function - Part 2 1. Hive的增强函数可分为以下几部分: 1.1 窗口函数: 名称 说明 lead(col, n) col列往后/下第N个值 lag(col,n) co...

Hbase Practice

Hbase Practice 介绍 HBase是开源、分布式、版本化的非关系型(列式)数据库,由Hdfs提供存储、MapReduce进行并行计算,是Google Bigtable的一个开源实现。 非关系型,不要求数据之间有严格的关系,甚至允许同一列的不同功行存储不同类型的数据。 优势: 典型的NoSQL 容量大, 单表可存储百亿行、百万列,在横向和纵向两个维度插入数据,有很高的...

Clickhouse Tutorial

Clickhouse Overview Clickhouse是优秀的列式数据库,主要用于OLAP领域。 特点: 不同于OLTP需要大量的CRUD,OLAP一般只对数据做读(R)操作; 无需事物,低一致性要求; 查询通常涉及大量的行,少量的列,较小的结果集; 根据以上特点,列式数据库要从底层优化。 列式数据库优点 行存储模式下,不相关的列在查询时也被读出,读取数据量...

Hive Beeline Tutorial

Hive Beeline Tutorial 1. Hive-cli和Beeline区别 hive-cli只能一次一个连接,不能并行处理多个连接; hive-cli直接通过metaserver访问元数据,没有权限控制; hiveserver2提供权限控制; beeline连接hiveserver2,实现多用户、有权限控制的访问; 2. 配置 2.1 hadoop配置 c...

Partition and Cluster in Hive

Hive的分区与分桶 分区与分桶都是提高查询效率的机制。 分区:按某一字断统一归类,并存储在不同的位置,一个分区对应一个HDFS一个子目录。分区的字段可以不在表中。 分桶:用于优化查询而设计,指定桶的个数和分桶依据,Hive就可以将数据分桶存储。 分桶的实质是将数据分成不同的文件。桶数和Reduce(集群中节点)的个数相同;同一个区中的数据会大致均匀分布在不同的桶中(通过hash...

Sqoop Usage

Overview Sqoop 是Apache开源软件,用于在HDFS/Hive和关系型数据库之间双向传输数据。 graph TD; DB[Mysql/Oracle] -->|Import| Hadoop[HDFS/Hive]; Hadoop --> |Export| DB; 工作机制 Translate the import/export command into map...

Word Count - find the top ranking words used in an article

1. Aim Create a MapReduce Task by Jar to find the top ranking words in articles. 2. Java Development 2.1 create a maven project Create a maven project named ‘WordCount’. 2.2 add dependency in pom...