大数据面试题之Hbase系列

1.Hbase调优 2.hbase的rowkey怎么创建好?列族怎么创建比较好? 3.hbase过滤器实现用途 4.HBase宕机如何处理 5.hive跟hbase的区别是? 6.hbase写流程 7.hbase读流程 8.hbase数据flush过程 9.数据合并过程 10.Hmaster和Hgionserver职责 11.HBase列族和region的关系? 12.请简述Hbase的物理模型是什么 13.请问如果使用Hbase做即席查询,如何设计二级索引 14.如何避免读、写HBaes时访问...

2021-07-20 | wx5c7a97e3804fd | 150浏览

你可能需要的Kafka面试题与答案整理

本文是根据平时面试以及网上资源进行的整理。希望对小伙伴们面试有帮助。 消息队列的作用和使用场景 通过异步处理提高响应时间,削峰填谷: 场景:数据比较集中且实时要求不是太高,如果同步处理,假如业务高峰需要4台服务支撑,那么在业务高峰过了之后,就会出现资源闲置,如果引入消息队列的话,将数据放到消息队列后直接返回成功,提升了响应时间,真正的业务在消息队列后面消费处理,可能2台服务就能够支撑的住,而且流量更加均匀。 降低系统间的耦合度: 场景:数据不止一方依赖,可能多个系统都需要这份数据,如果由发送方直...

2021-07-20 | 蜡笔小新v | 416浏览

你可能需要的Kafka面试题与答案整理

本文是根据平时面试以及网上资源进行的整理。希望对小伙伴们面试有帮助。 消息队列的作用和使用场景 通过异步处理提高响应时间,削峰填谷: 场景:数据比较集中且实时要求不是太高,如果同步处理,假如业务高峰需要4台服务支撑,那么在业务高峰过了之后,就会出现资源闲置,如果引入消息队列的话,将数据放到消息队列后直接返回成功,提升了响应时间,真正的业务在消息队列后面消费处理,可能2台服务就能够支撑的住,而且流量更加均匀。 降低系统间的耦合度: 场景:数据不止一方依赖,可能多个系统都需要这份数据,如果由发送方直...

2021-07-20 | wx5c7a97e3804fd | 653浏览

后起之秀Pulsar VS. 传统强者Kafka?谁更强

关于 Apache Pulsar Apache Pulsar 是 Apache 软件基金会顶级项目,是下一代云原生分布式消息流平台,集消息、存储、轻量化函数式计算为一体,采用计算与存储分离架构设计,支持多租户、持久化存储、多机房跨区域数据复制,具有强一致性、高吞吐、低延时及高可扩展性等流数据存储特性。 GitHub 地址:http://github.com/apache/pulsar/ 介绍 最近,我一直在研究 Pulsar 及其与 Kafka 的比较。通过快速搜索,你会看到这两个最著名的开源消...

2021-07-20 | 蜡笔小新v | 383浏览

后起之秀Pulsar VS. 传统强者Kafka?谁更强

关于 Apache Pulsar Apache Pulsar 是 Apache 软件基金会顶级项目,是下一代云原生分布式消息流平台,集消息、存储、轻量化函数式计算为一体,采用计算与存储分离架构设计,支持多租户、持久化存储、多机房跨区域数据复制,具有强一致性、高吞吐、低延时及高可扩展性等流数据存储特性。 GitHub 地址:http://github.com/apache/pulsar/ 介绍 最近,我一直在研究 Pulsar 及其与 Kafka 的比较。通过快速搜索,你会看到这两个最著名的开源消...

2021-07-20 | wx5c7a97e3804fd | 571浏览

【大数据哔哔集20210123】别问,问就是Kafka最可靠

高可靠性分析 Kafka的高可靠性的保障来源于其健壮的副本(replication)策略。通过调节其副本相关参数,可以使得Kafka在性能和可靠性之间运转的游刃有余。Kafka从0.8.x版本开始提供Partition级别的复制,replication数量可以配置文件(default.replication.refactor)中或者创建Topic的时候指定。 这里先从Kafka文件存储机制入手,从最底层了解Kafka的存储细节,进而对存储有个微观的认知。之后通过Kafka复制原理和同步方式来阐...

2021-07-20 | wx5c7a97e3804fd | 784浏览

【大数据哔哔集20210123】别问,问就是Kafka最可靠

高可靠性分析 Kafka的高可靠性的保障来源于其健壮的副本(replication)策略。通过调节其副本相关参数,可以使得Kafka在性能和可靠性之间运转的游刃有余。Kafka从0.8.x版本开始提供Partition级别的复制,replication数量可以配置文件(default.replication.refactor)中或者创建Topic的时候指定。 这里先从Kafka文件存储机制入手,从最底层了解Kafka的存储细节,进而对存储有个微观的认知。之后通过Kafka复制原理和同步方式来阐...

2021-07-20 | 蜡笔小新v | 263浏览

【大数据哔哔集20210124】有人问我Kafka Leader选举?我真没慌

一条消息只有被ISR中所有Follower都从Leader复制过去才会被认为已提交。这样就避免了部分数据被写进了Leader,还没来得及被任何Follower复制就宕机了,而造成数据丢失。而对于Producer而言,它可以选择是否等待消息commit,这可以通过request.required.acks来设置。这种机制确保了只要ISR中有一个或者以上的follower,一条被commit的消息就不会丢失。 什么是ISR?参考这里: 【大数据哔哔集20210123】别问,问就是Kafka高可靠 (...

2021-07-20 | wx5c7a97e3804fd | 340浏览

【大数据哔哔集20210124】有人问我Kafka Leader选举?我真没慌

一条消息只有被ISR中所有Follower都从Leader复制过去才会被认为已提交。这样就避免了部分数据被写进了Leader,还没来得及被任何Follower复制就宕机了,而造成数据丢失。而对于Producer而言,它可以选择是否等待消息commit,这可以通过request.required.acks来设置。这种机制确保了只要ISR中有一个或者以上的follower,一条被commit的消息就不会丢失。 什么是ISR?参考这里: 【大数据哔哔集20210123】别问,问就是Kafka高可靠 (...

2021-07-20 | 蜡笔小新v | 179浏览

【大数据哔哔集20210117】Kafka 的高可靠性是怎么实现的

数据可靠性 Kafka 作为一个商业级消息中间件,消息可靠性的重要性可想而知。本文从 Producter 往 Broker 发送消息、Topic 分区副本以及 Leader 选举几个角度介绍数据的可靠性。 Topic分区副本 在 Kafka 0.8.0 之前,Kafka 是没有副本的概念的,那时候人们只会用 Kafka 存储一些不重要的数据,因为没有副本,数据很可能会丢失。但是随着业务的发展,支持副本的功能越来越强烈,所以为了保证数据的可靠性,Kafka 从 0.8.0 版本开始引入了分区副本...

2021-07-20 | wx5c7a97e3804fd | 455浏览

【大数据哔哔集20210117】Kafka 的高可靠性是怎么实现的

数据可靠性 Kafka 作为一个商业级消息中间件,消息可靠性的重要性可想而知。本文从 Producter 往 Broker 发送消息、Topic 分区副本以及 Leader 选举几个角度介绍数据的可靠性。 Topic分区副本 在 Kafka 0.8.0 之前,Kafka 是没有副本的概念的,那时候人们只会用 Kafka 存储一些不重要的数据,因为没有副本,数据很可能会丢失。但是随着业务的发展,支持副本的功能越来越强烈,所以为了保证数据的可靠性,Kafka 从 0.8.0 版本开始引入了分区副本...

2021-07-20 | 蜡笔小新v | 868浏览

Kafka Connect | 无缝结合Kafka构建高效ETL方案

点击上方 蓝色字体 ,选择“ 设为星标 ” 回复”资源“获取更多资源 ! watermark,size_16,text_QDUxQ1RP5Y2a5a6i,color_FFFFFF,t_100,g_se,x_10,y_10,shadow_90,type_ZmFuZ3poZW5naGVpdGk= (https://s4.51cto.com/images/blog/202106/10/eebeefe4e22d860cfdc9336e592885b5.jpeg?x oss process=image/w...

2021-07-20 | wx5c7a97e3804fd | 441浏览

Kafka面试题总结(一)

1、Kafka 都有哪些特点? 高吞吐量、低延迟:kafka每秒可以处理几十万条消息,它的延迟最低只有几毫秒,每个topic可以分多个partition, consumer group 对partition进行consume操作。 可扩展性:kafka集群支持热扩展 持久性、可靠性:消息被持久化到本地磁盘,并且支持数据备份防止数据丢失 容错性:允许集群中节点失败(若副本数量为n,则允许n 1个节点失败) 高并发:支持数千个客户端同时读写 2、请简述下你在哪些场景下会选择 Kafka? 日志收集...

2021-07-20 | 蜡笔小新v | 420浏览

Kafka面试题总结(一)

1、Kafka 都有哪些特点? 高吞吐量、低延迟:kafka每秒可以处理几十万条消息,它的延迟最低只有几毫秒,每个topic可以分多个partition, consumer group 对partition进行consume操作。 可扩展性:kafka集群支持热扩展 持久性、可靠性:消息被持久化到本地磁盘,并且支持数据备份防止数据丢失 容错性:允许集群中节点失败(若副本数量为n,则允许n 1个节点失败) 高并发:支持数千个客户端同时读写 2、请简述下你在哪些场景下会选择 Kafka? 日志收集...

2021-07-20 | wx5c7a97e3804fd | 635浏览

Kafka面试题整理(二)

1、请说明什么是Apache Kafka? Apache Kafka是由Apache开发的一种发布订阅消息系统,它是一个分布式的、分区的和重复的日志服务。 2、请说明什么是传统的消息传递方法? 传统的消息传递方法包括两种: 队列:在队列中,一组用户可以从服务器中读取消息,每条消息都发送给其中一个人。 发布 订阅:在这个模型中,消息被广播给所有的用户。 3、请说明Kafka相对于传统的消息传递方法有什么优势? 高性能:单一的Kafka代理可以处理成千上万的客户端,每秒处理数兆字节的读写操作,Ka...

2021-07-20 | 蜡笔小新v | 790浏览

Kafka面试题整理(二)

1、请说明什么是Apache Kafka? Apache Kafka是由Apache开发的一种发布订阅消息系统,它是一个分布式的、分区的和重复的日志服务。 2、请说明什么是传统的消息传递方法? 传统的消息传递方法包括两种: 队列:在队列中,一组用户可以从服务器中读取消息,每条消息都发送给其中一个人。 发布 订阅:在这个模型中,消息被广播给所有的用户。 3、请说明Kafka相对于传统的消息传递方法有什么优势? 高性能:单一的Kafka代理可以处理成千上万的客户端,每秒处理数兆字节的读写操作,Ka...

2021-07-20 | wx5c7a97e3804fd | 514浏览

基于Kafka Flink Redis的电商大屏实时计算案例

前言一年一度的双11又要到了,阿里的双11销量大屏可以说是一道特殊的风景线。实时大屏(real time dashboard)正在被越来越多的企业采用,用来及时呈现关键的数据指标。并且在实际操作中,肯定也不会仅仅计算一两个维度。由于Flink的“真·流式计算”这一特点,它比Spark Streaming要更适合大屏应用。本文从笔者的实际工作经验抽象出简单的模型,并简要叙述计算流程(当然大部分都是源码)。 数据格式与接入简化的子订单消息体如下。 {'userId': 234567,'orderId...

2021-07-20 | wx5c7a97e3804fd | 805浏览

基于Kafka Flink Redis的电商大屏实时计算案例

前言一年一度的双11又要到了,阿里的双11销量大屏可以说是一道特殊的风景线。实时大屏(real time dashboard)正在被越来越多的企业采用,用来及时呈现关键的数据指标。并且在实际操作中,肯定也不会仅仅计算一两个维度。由于Flink的“真·流式计算”这一特点,它比Spark Streaming要更适合大屏应用。本文从笔者的实际工作经验抽象出简单的模型,并简要叙述计算流程(当然大部分都是源码)。 数据格式与接入简化的子订单消息体如下。 {'userId': 234567,'orderId...

2021-07-20 | 蜡笔小新v | 314浏览

Google布隆过滤器与Redis布隆过滤器详解

一、什么是布隆过滤器? 布隆过滤器可以用来判断一个元素是否在一个集合中。它的优势是只需要占用很小的内存空间以及有着高效的查询效率。 对于布隆过滤器而言,它的本质是一个位数组:位数组就是数组的每个元素都只占用1bit ,并且每个元素只能是0或者1 布隆过滤器除了一个位数组,还有 K 个哈希函数。当一个元素加入布隆过滤器中的时候,会进行如下操作: 使用K个哈希函数对元素值进行K次计算,得到K个哈希值 根据得到的哈希值,在位数组中把对应下标的值置为1 下图表示有三个hash函数,比如一个集合中有x、...

2021-07-20 | wx5c7a97e3804fd | 366浏览

Google布隆过滤器与Redis布隆过滤器详解

一、什么是布隆过滤器? 布隆过滤器可以用来判断一个元素是否在一个集合中。它的优势是只需要占用很小的内存空间以及有着高效的查询效率。 对于布隆过滤器而言,它的本质是一个位数组:位数组就是数组的每个元素都只占用1bit ,并且每个元素只能是0或者1 布隆过滤器除了一个位数组,还有 K 个哈希函数。当一个元素加入布隆过滤器中的时候,会进行如下操作: 使用K个哈希函数对元素值进行K次计算,得到K个哈希值 根据得到的哈希值,在位数组中把对应下标的值置为1 下图表示有三个hash函数,比如一个集合中有x、...

2021-07-20 | 蜡笔小新v | 430浏览