hive用到哪些技术点
数据迁移(oracle 到 hive)
sql脚本
udf udaf举例(hive)
udf 继承extends 重写 evaluate
udf的输入参数一般对应数据表的列,以行为单位
hive/sparkSql实现udaf 需要继承什么,自己需要实现哪部分逻辑
hbase随机热点问题
自己入坑,加了随机前缀,加随机前缀的话怎么查询rowkey
如果随机前缀的话,怎么查询rowkey?随机前缀的话会破坏rowkey,使得rowkey没有意义。可以加随机后缀的方式,这样可以再通过前缀过滤器来查询
rowkey 简短性
rowkey 唯一性
rowkey 散列性
rowkey 设计举例:
userid|timestamp|hashCode
kafka+sparkStreaming中断时,如何保证消息只消费一次
消息中断时采用checkpoint恢复,恢复的原理是什么?sparkStreaming 如何维护offset
spark streaming读取kakfka数据手动维护offset
hbase压缩算法问题
hadoop | hbase算法 | 表示 |
---|---|---|
‘none’ | ||
zlib | gzip | ‘GZ’ |
lz4 | LZ4 | ‘LZ4’ |
snappy | Snappy | ‘SNAPPY’ |
bzip2 | ||
LZO | ‘LZO’ |
Enabling Compression on a ColumnFamily of an Existing Table using HBaseShell
修改已经存在的表
Creating a New Table with Compression On a ColumnFamily
创建表时采用压缩算法
Verifying a ColumnFamily’s Compression Settings
查看列簇的压缩方式
hbase查询(filter)
接触大数据后,最大的收获是什么
#(我一系列懵逼之后)你擅长哪部分
#