Hive
- 2021-09-09 15:22:00
- Post By 高景洋
1、调度数据存在hbase中,数据总量约2亿,活数据约1.2亿
2、每日要基于1.2亿的活数据,做每2小时一次的调度,日调度12次
3、当前的调度方式为,spark + hbase 方式。通过 spark将hbase的数据读取后,做调度操作。
4、调度性能满足当前业务需求,且性能富裕。
5、但对于hbase调度库的数据情况,因为数据量大,难于统计分析。
6、因此,我们需要一种方式,以 在线 或 离线 方式,可以统计调度库中的数据。
查看全文 | 浏览次数(1541)
- 2021-09-09 13:32:00
- Post By 高景洋
<b>1、获取当前日期的前一天:</b><br/>
select date_add(CURRENT_DATE,-1);<br/><br/>
<b>1、获取当前日期的后一天:</b><br/>
select date_add(CURRENT_DATE,1);<br/><br/>
查看全文 | 浏览次数(4148)
- 2021-09-09 13:14:00
- Post By 高景洋
通过 SELECT CURRENT_DATE; 即可在hive中获取到当前日期<br/>
--------------------------------------<br/>
hive> SELECT CURRENT_DATE;<br/>
OK<br/>
2021-09-08<br/>
Time taken: 1.199 seconds, Fetched: 1 row(s)<br/>
查看全文 | 浏览次数(1294)
- 2021-09-07 17:28:00
- Post By 高景洋
1、查看表结构:desc table_name;<br/>
2、查看表详细信息:desc formatted table_name;<br/>
查看全文 | 浏览次数(1234)
- 2021-09-03 18:46:00
- Post By 高景洋
NULLpyspark 执行 hive读写操作时报以下错误:
Hive support is required to CREATE Hive TABLE (AS SELECT)
来~ 翻译翻译: Hive 不支持建表请求 ~
这是为什么呢:
在spark 提交任务时,加上配置 :--conf spark.sql.catalogImplementation=hive
即可解决
查看全文 | 浏览次数(1654)
- 2021-09-03 18:16:00
- Post By 高景洋
from pyspark import SparkContext,SparkConf,HiveContext
conf = SparkConf()
sc = SparkContext(conf=conf)
df_tmp = list_filter_websiteids.where('WebsiteID in ({})'.format(','.join(['1','71']))).filter(list_filter_websiteids['IsDeleted']==True)
# 过滤生成dataframe
查看全文 | 浏览次数(1450)