Bourne's Blog - A Full-stack & Web3 Developer

「big data era」

Scala Programming - Part 2

Formatting 1 2 3 4 5 6 7 8 9 10 11 scala> "Application %s".format("Hello world") val res118: String = Application Hello world scala> "age %d".format(5) val res119: String = age 5 scala> ...

Posted by Bourne's Blog - A Full-stack & Web3 Developer on May 19, 2022

Scala Programming - Part 1

Array/List/Set have some common features and functions, such as: size min max sum head tail concat forall foreach map filter find mkString 1. Collection 1.1 Array 1 2 3...

Posted by Bourne's Blog - A Full-stack & Web3 Developer on May 18, 2022

Hive Windowing and Analytics Function - Part 3

Hive Windowing and Analytics Function - Part 3 1.1 订单表统计已知一个表orders，有如下字段:dt(date)，order_id，user_id，amount。数据样例:2021-01-01,10029028,1000003251,33.57。 1.1.1 给出 2021年每个月的订单数、用户数、总成交金额思路：先根据日期计...

Posted by Bourne's Blog - A Full-stack & Web3 Developer on May 14, 2022

Hive Windowing and Analytics Function - Part 2

Hive Windowing and Analytics Function - Part 2 1. Hive的增强函数可分为以下几部分： 1.1 窗口函数：名称说明 lead(col, n) col列往后/下第N个值 lag(col,n) co...

Posted by Bourne's Blog - A Full-stack & Web3 Developer on May 13, 2022

Hbase Practice

Hbase Practice 介绍 HBase是开源、分布式、版本化的非关系型（列式）数据库，由Hdfs提供存储、MapReduce进行并行计算，是Google Bigtable的一个开源实现。非关系型，不要求数据之间有严格的关系，甚至允许同一列的不同功行存储不同类型的数据。优势：典型的NoSQL 容量大，单表可存储百亿行、百万列，在横向和纵向两个维度插入数据，有很高的...

Posted by Bourne's Blog - A Full-stack & Web3 Developer on May 12, 2022

Clickhouse Tutorial

Clickhouse Overview Clickhouse是优秀的列式数据库，主要用于OLAP领域。特点: 不同于OLTP需要大量的CRUD，OLAP一般只对数据做读（R）操作；无需事物，低一致性要求；查询通常涉及大量的行，少量的列，较小的结果集；根据以上特点，列式数据库要从底层优化。列式数据库优点行存储模式下，不相关的列在查询时也被读出，读取数据量...

Posted by Bourne's Blog - A Full-stack & Web3 Developer on May 11, 2022

Hive Beeline Tutorial

Hive Beeline Tutorial 1. Hive-cli和Beeline区别 hive-cli只能一次一个连接，不能并行处理多个连接； hive-cli直接通过metaserver访问元数据，没有权限控制； hiveserver2提供权限控制； beeline连接hiveserver2，实现多用户、有权限控制的访问； 2. 配置 2.1 hadoop配置 c...

Posted by Bourne's Blog - A Full-stack & Web3 Developer on May 10, 2022

Partition and Cluster in Hive

Hive的分区与分桶分区与分桶都是提高查询效率的机制。分区：按某一字断统一归类，并存储在不同的位置，一个分区对应一个HDFS一个子目录。分区的字段可以不在表中。分桶：用于优化查询而设计，指定桶的个数和分桶依据，Hive就可以将数据分桶存储。分桶的实质是将数据分成不同的文件。桶数和Reduce（集群中节点）的个数相同；同一个区中的数据会大致均匀分布在不同的桶中（通过hash...

Posted by Bourne's Blog - A Full-stack & Web3 Developer on May 6, 2022

Sqoop Usage

Overview Sqoop 是Apache开源软件，用于在HDFS/Hive和关系型数据库之间双向传输数据。 graph TD; DB[Mysql/Oracle] -->|Import| Hadoop[HDFS/Hive]; Hadoop --> |Export| DB; 工作机制 Translate the import/export command into map...

Posted by Bourne's Blog - A Full-stack & Web3 Developer on May 4, 2022

Word Count - find the top ranking words used in an article

1. Aim Create a MapReduce Task by Jar to find the top ranking words in articles. 2. Java Development 2.1 create a maven project Create a maven project named ‘WordCount’. 2.2 add dependency in pom...

Posted by Bourne's Blog - A Full-stack & Web3 Developer on May 3, 2022