采用PostgreSQL 9.2 官方文档例子为例:
CREATE TABLE weather ( city varchar(80), temp_lo int, -- low temperature temp_hi int, -- high temperature prcp real, -- precipitation date date );
INSERT INTO weather VALUES ('San Francisco', 46, 50, 0.25, '1994-11-27'), ('San Francisco', 43, 57, 0, '1994-11-29'), ('Hayward', 37, 54, NULL, '1994-11-29'), ('Hayward', 37, 54, NULL, '1994-11-29'); --- duplicated row
这里有3中方法:
第一种:替换法
-- 剔除重复行的数据转存到新表weather_temp SELECT DISTINCT city, temp_lo, temp_hi, prcp, date INTO weather_temp FROM weather; -- 删除原表 DROP TABLE weather; -- 将新表重命名为weather ALTER TABLE weather_temp RENAME TO weather;
或者
-- 创建与weather一样的表weather_temp CREATE TABLE weather_temp (LIKE weather INCLUDING CONSTRAINTS); -- 用剔除重复行的数据填充到weather_temp中 INSERT INTO weather_temp SELECT DISTINCT * FROM weather; -- 删除原表 DROP TABLE weather; -- 将新重命名为weather. ALTER TABLE weather_temp RENAME TO weather;通俗易懂,有很多毁灭性的操作如DROP,而且当数据量大时,耗时耗空间。不推荐。 第二种: 添加字段法
-- 添加一个新字段,类型为serial ALTER TABLE weather ADD COLUMN id SERIAL; -- 删除重复行 DELETE FROM weather WHERE id NOT IN ( SELECT max(id) FROM weather GROUP BY city, temp_lo, temp_hi, prcp, date ); -- 删除添加的字段 ALTER TABLE weather DROP COLUMN id;
需要添加字段,「暂时不知道Postgres是如何处理添加字段的,是直接在原表追加呢,还是复制原表组成新表呢?」,如果是原表追加,可能就会因为新字段的加入而导致分页(一般block: 8k),如果是复制的话那就罪过了。不好。
第三种:系统字段[查看 System Columns]
DELETE FROM weather WHERE ctid NOT IN ( SELECT max(ctid) FROM weather GROUP BY city, temp_lo, temp_hi, prcp, date );
针对性强[Postgres独有],但是简单。