Hive
- 2021-09-09 15:22:00
- Post By 高景洋
1、调度数据存在hbase中,数据总量约2亿,活数据约1.2亿
2、每日要基于1.2亿的活数据,做每2小时一次的调度,日调度12次
3、当前的调度方式为,spark + hbase 方式。通过 spark将hbase的数据读取后,做调度操作。
4、调度性能满足当前业务需求,且性能富裕。
5、但对于hbase调度库的数据情况,因为数据量大,难于统计分析。
6、因此,我们需要一种方式,以 在线 或 离线 方式,可以统计调度库中的数据。
查看全文 | 浏览次数(2561)
- 2021-09-09 13:32:00
- Post By 高景洋
<b>1、获取当前日期的前一天:</b><br/>
select date_add(CURRENT_DATE,-1);<br/><br/>
<b>1、获取当前日期的后一天:</b><br/>
select date_add(CURRENT_DATE,1);<br/><br/>
查看全文 | 浏览次数(5352)
- 2021-09-09 13:14:00
- Post By 高景洋
通过 SELECT CURRENT_DATE; 即可在hive中获取到当前日期<br/>
--------------------------------------<br/>
hive> SELECT CURRENT_DATE;<br/>
OK<br/>
2021-09-08<br/>
Time taken: 1.199 seconds, Fetched: 1 row(s)<br/>
查看全文 | 浏览次数(2304)
- 2021-09-07 17:28:00
- Post By 高景洋
1、查看表结构:desc table_name;<br/>
2、查看表详细信息:desc formatted table_name;<br/>
查看全文 | 浏览次数(2218)
- 2021-09-03 18:46:00
- Post By 高景洋
NULLpyspark 执行 hive读写操作时报以下错误:
Hive support is required to CREATE Hive TABLE (AS SELECT)
来~ 翻译翻译: Hive 不支持建表请求 ~
这是为什么呢:
在spark 提交任务时,加上配置 :--conf spark.sql.catalogImplementation=hive
即可解决
查看全文 | 浏览次数(2807)
- 2021-09-03 18:16:00
- Post By 高景洋
from pyspark import SparkContext,SparkConf,HiveContext
conf = SparkConf()
sc = SparkContext(conf=conf)
df_tmp = list_filter_websiteids.where('WebsiteID in ({})'.format(','.join(['1','71']))).filter(list_filter_websiteids['IsDeleted']==True)
# 过滤生成dataframe
查看全文 | 浏览次数(2441)
热门文章
- pyspark dataframe 列值转小写
- 导致redis cpu占用100%过高的原因和解决方法
- SQL判断某字符出现次数,小技巧
- CST时间与GMT时间区别,及解析特殊日期时间方法
- 什么值得买爱情故事 第六章 爱她,就不要管他是高富帅,还是土肥圆
- linux centos7安装mysql教程
- Linux如何通过堡垒机,连接其他机器
- centos pip3 install mysqlclient 报错 “/bin/sh: 1: mysql_config: not found”的解决方法
- iis配置m3u8播放及m3u8播放不了的解决办法
- SQL Server 数据库“正在恢复”,查看恢复比例