Hive

  • 2021-09-09 15:22:00
  • Post By 高景洋
1、调度数据存在hbase中,数据总量约2亿,活数据约1.2亿 2、每日要基于1.2亿的活数据,做每2小时一次的调度,日调度12次 3、当前的调度方式为,spark + hbase 方式。通过 spark将hbase的数据读取后,做调度操作。 4、调度性能满足当前业务需求,且性能富裕。 5、但对于hbase调度库的数据情况,因为数据量大,难于统计分析。 6、因此,我们需要一种方式,以 在线 或 离线 方式,可以统计调度库中的数据。
查看全文 | 浏览次数(1541)
  • 2021-09-09 13:32:00
  • Post By 高景洋
<b>1、获取当前日期的前一天:</b><br/> select date_add(CURRENT_DATE,-1);<br/><br/> <b>1、获取当前日期的后一天:</b><br/> select date_add(CURRENT_DATE,1);<br/><br/>
查看全文 | 浏览次数(4148)
  • 2021-09-09 13:14:00
  • Post By 高景洋
通过 SELECT CURRENT_DATE; 即可在hive中获取到当前日期<br/> --------------------------------------<br/> hive> SELECT CURRENT_DATE;<br/> OK<br/> 2021-09-08<br/> Time taken: 1.199 seconds, Fetched: 1 row(s)<br/>
查看全文 | 浏览次数(1294)
  • 2021-09-07 17:28:00
  • Post By 高景洋
1、查看表结构:desc table_name;<br/> 2、查看表详细信息:desc formatted table_name;<br/>
查看全文 | 浏览次数(1234)
  • 2021-09-03 18:46:00
  • Post By 高景洋
NULLpyspark 执行 hive读写操作时报以下错误: Hive support is required to CREATE Hive TABLE (AS SELECT) 来~ 翻译翻译: Hive 不支持建表请求 ~ 这是为什么呢: 在spark 提交任务时,加上配置 :--conf spark.sql.catalogImplementation=hive 即可解决
查看全文 | 浏览次数(1654)
  • 2021-09-03 18:16:00
  • Post By 高景洋
from pyspark import SparkContext,SparkConf,HiveContext conf = SparkConf() sc = SparkContext(conf=conf) df_tmp = list_filter_websiteids.where('WebsiteID in ({})'.format(','.join(['1','71']))).filter(list_filter_websiteids['IsDeleted']==True) # 过滤生成dataframe
查看全文 | 浏览次数(1450)
  1. 1