sql去重复查询distinct使用 Java程序员在写 SQL 时常犯的错误

点击关注上方“SQL数据库开发”，

设为“置顶或星标”，第一时间送达干货

Java程序员编程时需要混合面向对象思维和一般命令式编程的方法，能否完美的将两者结合起来完全得依靠编程人员的水准：

但当Java程序员写SQL语句时，一切都不一样了。SQL是说明性语言而非面向对象或是命令式编程语言。在SQL中要写个查询语句是很简单的。但在Java里类似的语句却不容易，因为程序员不仅要反复考虑编程范式，而且也要考虑算法的问题。

下面是Java程序员在写SQL时常犯的10个错误（没有特定的顺序）。

1、忘掉NULL

Java程序员写SQL时对NULL的误解可能是最大的错误。也许是因为（并非唯一理由）NULL也称作UNKNOWN。如果被称作 UNKNOWN，这还好理解些。另一个原因是，当你从数据库拿东西或是绑定变量时，JDBC将SQL NULL 和Java中的null对应了起来。这样导致了NULL = NULL（SQL）和null=null（Java）的误解。

对于NULL最大的误解是当NULL被用作行值表达式完整性约束条件时。另一个误解出现在对于NULL 在 NOT IN anti-joins的应用中。

解决方法：

2、在Java内存中处理数据

很少有Java开发者能将SQL理解的很好。偶尔使用的JOIN,还有古怪的UNION，好吧，但是对于窗口函数呢？还有对集合进行分组呢？许多的Java开发者将SQL数据加载到内存中，将这些数据转换成某些相近的集合类型，然后再那些集合上面使用边界循环控制结构（至少在Java8的集合升级以前）执行令人生厌的数学运算。

但是一些SQL数据库支持先进的（而且是SQL标准支持的）OLAP特性,这一特性表现更好而且写起来也更加方便。一个（并不怎么标准的）例子就是Oracle超棒的MODEL分句。只让数据库来做处理然后只把结果带到Java内存中吧。因为毕竟所有非常聪明的家伙已经对这些昂贵的产品进行了优化。因此实际上,通过将OLAP移到数据库，你将获得一下两项好处：

解决方法：

每次你使用Java实现一个以数据为中心的算法时，问问自己：有没有一种方法可以让数据库代替为我做这种麻烦事。

3、使用UNION ALL代替UNION

和UNION相比UNION ALL还需要额外的关键字。如果SQL标准已经规定了支持，那么可能会更好点。

移除重复行不仅很少需要（有时甚至是错的），而且对于带很多行的大数据集合会相当慢，因为两个子select需要排序，而且每个元组也需要和它的子序列元组比较。

注意即使SQL标准规定了INTERSECT ALL和EXCEPT ALL，很少数据库会实现这些没用的集合操作符。

解决方法：

每次写UNION语句时，考虑实际上是否需要UNION ALL语句。

4、通过JDBC分页技术给大量的结果进行分页操作

大部分的数据库都会支持一些分页命令实现分页效果，譬如LIMIT..OFFSET,TOP..START AT,OFFSET..FETCH语句等。即使没有支持这些语句的数据库，仍有可能对ROWNUM（Oracle）或者是ROW NUMBER()、OVER()过滤（DB2、SQL Server2008等），这些比在内存中实现分页更快速。在处理大量数据中，效果尤其明显。

解决方法：

仅仅使用这些语句，那么一个工具（例如JOOQ）就可以模拟这些语句的操作。

5、在Java内存中加入数据

从SQL的初期开始，当在SQL中使用JOIN语句时，一些开发者仍旧有不安的感觉。这是源自对加入JOIN后会变慢的固有恐惧。假如基于成本的优化选择去实现嵌套循环，在创建一张连接表源前，可能加载所有的表在数据库内存中，这可能是真的。但是这事发生的概率太低了。通过合适的预测，约束和索引，合并连接和哈希连接的操作都是相当的快。这完全是是关于正确元数据（在这里我不能够引用Tom Kyte的太多）。而且，可能仍然有不少的Java开发人员加载两张表通过分开查询到一个映射中，并且在某种程度上把他们加到了内存当中。

解决方法：

假如你在各个步骤中有从各种表的查询操作，好好想想是否可以表达你的查询操作在单条语句中。

6、在一个临时的笛卡尔积集合中使用 DISTINCT 或 UNION 消除重复项

通过复杂的连接sql去重复查询distinct使用，人们可能会对SQL语句中扮演关键角色的所有关系失去概念。特别的，如果这涉及到多列外键关系的话，很有可能会忘记在JOIN .. ON子句中增加相关的判断。这会导致重复的记录，但或许只是在特殊的情况下。有些开发者因此可能选择DISTINCT来消除这些重复记录。从三个方面来说这是错误的：

解决方法：

根据经验，如果你获得了不需要的重复记录，还是检查你的JOIN判断吧。可能在某个地方有一个很难觉察的笛卡尔积集合。

7、不使用MERGE语句

这并不是一个过失，但是可能是缺少知识或者对于强悍的MERGE语句信心不足。一些数据库理解其它形式的更新插入（UPSERT）语句，如 MYSQL的重复主键更新语句，但是MERGE在数据库中确是很强大，很重要，以至于大肆扩展SQL标准，例如SQL SERVER。

解决方法：

如果你使用像联合INSERT和UPDATE或者联合SELECT .. FOR UPDATE然后在INSERT或UPDATE等更新插入时，请三思。你完全可以使用一个更简单的MERGE语句来远离冒险竞争条件。

8、使用聚合函数代替窗口函数（window functions）

在介绍窗口函数之前，在SQL中聚合数据意味着使用GROUP BY语句与聚合函数相映射。在很多情形下都工作得很好，如聚合数据需要浓缩常规数据，那么就在join子查询中使用group查询。

但是在SQL2003中定义了窗口函数，这个在很多主流数据库都实现了它。窗口函数能够在结果集上聚合数据，但是却没有分组。事实上，每个窗口函数都有自己的、独立的PARTITION BY语句，这个工具对于显示报告太好了。

使用窗口函数：

解决方法：

当你在子查询中使用GROUP BY语句时，请再三考虑是否可以使用窗口函数完成。

9、使用内存间接排序

SQL的ORDER BY语句支持很多类型的表达式，包括CASE语句sql去重复查询distinct使用，对于间接排序十分有用。你可能重来不会在Java内存中排序数据，因为你会想：

解决方法：

如果你在内存中排序任何SQL数据，请再三考虑，是否不能在数据库中排序。这对于数据库分页数据十分有用。

10、一条一条地插入大量记录

JDBC“懂”批处理（batch），你应该不会忘了它。不要使用INSERT语句来一条一条的出入成千上万的记录，（因为）每次都会创建一个新的PreparedStatement对象。如果你的所有记录都插入到同一个表时，那么就创建一个带有一条SQL语句以及附带很多值集合的插入批处理语句。你可能需要在达到一定量的插入记录后才提交来保证UNDO日志瘦小，这依赖于你的数据库和数据库设置。

解决方法：

总是使用批处理插入大量数据。

来自：OSChina

译者：oschina.net/translate/10-common-mistakes-java-developers-make-when-writing-sql

——End——
后台回复关键字：1024，获取一份精心整理的技术干货
后台回复关键字：进群，带你进入高手如云的交流群。
推荐阅读
不懂就问：为什么SELECT * 会导致查询效率低？
SQL 语法速成手册
精心整理了一套SQL高级函数，建议收藏
一款SQL自动检查神器，再也不用担心SQL出错了！
SQL 语句中 where 条件后 写上1=1 是什么意思

这是一个能学到技术的公众号，欢迎关注

点击「阅读原文」了解SQL训练营

———END———

限 时 特 惠：本站每日持续更新海量各大内部创业教程，一年会员只需128元，全站资源免费下载点击查看详情

站 长 微 信：jiumai99

相关文章