Hive
- 2021-09-09 15:22:00
- Post By 高景洋
1、调度数据存在hbase中,数据总量约2亿,活数据约1.2亿
2、每日要基于1.2亿的活数据,做每2小时一次的调度,日调度12次
3、当前的调度方式为,spark + hbase 方式。通过 spark将hbase的数据读取后,做调度操作。
4、调度性能满足当前业务需求,且性能富裕。
5、但对于hbase调度库的数据情况,因为数据量大,难于统计分析。
6、因此,我们需要一种方式,以 在线 或 离线 方式,可以统计调度库中的数据。
查看全文 | 浏览次数(2561)
- 2021-09-09 13:32:00
- Post By 高景洋
<b>1、获取当前日期的前一天:</b><br/>
select date_add(CURRENT_DATE,-1);<br/><br/>
<b>1、获取当前日期的后一天:</b><br/>
select date_add(CURRENT_DATE,1);<br/><br/>
查看全文 | 浏览次数(5352)
- 2021-09-09 13:14:00
- Post By 高景洋
通过 SELECT CURRENT_DATE; 即可在hive中获取到当前日期<br/>
--------------------------------------<br/>
hive> SELECT CURRENT_DATE;<br/>
OK<br/>
2021-09-08<br/>
Time taken: 1.199 seconds, Fetched: 1 row(s)<br/>
查看全文 | 浏览次数(2304)
- 2021-09-07 17:28:00
- Post By 高景洋
1、查看表结构:desc table_name;<br/>
2、查看表详细信息:desc formatted table_name;<br/>
查看全文 | 浏览次数(2218)
- 2021-09-03 18:46:00
- Post By 高景洋
NULLpyspark 执行 hive读写操作时报以下错误:
Hive support is required to CREATE Hive TABLE (AS SELECT)
来~ 翻译翻译: Hive 不支持建表请求 ~
这是为什么呢:
在spark 提交任务时,加上配置 :--conf spark.sql.catalogImplementation=hive
即可解决
查看全文 | 浏览次数(2808)
- 2021-09-03 18:16:00
- Post By 高景洋
from pyspark import SparkContext,SparkConf,HiveContext
conf = SparkConf()
sc = SparkContext(conf=conf)
df_tmp = list_filter_websiteids.where('WebsiteID in ({})'.format(','.join(['1','71']))).filter(list_filter_websiteids['IsDeleted']==True)
# 过滤生成dataframe
查看全文 | 浏览次数(2441)
热门文章
- 什么值得买爱情故事 第七章 一场及时雨,滋润了爱情土壤中的四颗萌芽
- linux 下如何远程连接 redis
- LogStash 从mysql向es导数据 date_time_parse_exception could not be parsed at index
- 安装mysql报错:repository are already installed but they are not correct for this package.
- Spark groupByKey算子学习使用详解
- flask nginx转发代理配置https证书请求
- centos换源到阿里云
- 什么值得买爱情故事 第二章
- sql server 数据库的"全文索引"为灰色,不可用
- 导致redis cpu占用100%过高的原因和解决方法