JOIN使用的注意事项

JOIN的使用要求






在SparkSQL/HQL中,使用JOIN进行表关联时,需要注意以下要求:

  • 空值处理,多个表进行JOIN取值,在非INNER JOIN的情况下大多会取到NULL空值,对这些空值在必要情况下需要进行空值处理,一般使用COALESCE进行转换
  • 确认关联字段是否唯一
  • 对于字符型关联字段,如果无法保障不存在前后空格,最好进行TRIM处理后再关联
  • 关联条件关键字ON与JOIN关键字右对齐,AND进行多条件关联时,同样与JOIN关键字右对齐
  • WHERE子句中的多条件连接符AND、OR,与WHERE右对齐
  • 不建议使用RIGHT JOIN进行表关联操作,可以改写成LEFT JOIN,便于代码阅读
  • 注意LEFT JOIN ON AND与LEFT JOIN ON WHERE的区别,需要全局数据过滤时使用后者
  • 使用LEFT JOIN时,右表筛选条件一般写在ON AND关联子句中,主表全局筛选条件一般写在WHERE子句中

你可能感兴趣的:(#,Hive,#,Spark,sparksql,hivesql)