MySQL 批量插入,如何不插入重复数据?

php开源社区 2021-04-08 10:55:43
大数据 mybatis Mysql


温故而知新

知识这个东西,看来真的要温故而知新,一直不用,都要忘记了。

业务很简单:需要批量插入一些数据,数据来源可能是其他数据库的表,也可能是一个外部excel的导入。

那么问题来了,是不是每次插入之前都要查一遍,看看重不重复,在代码里筛选一下数据,重复的就过滤掉呢?

向大数据数据库中插入值时,还要判断插入是否重复,然后插入。如何提高效率?

看来这个问题不止我一个人苦恼过。

解决的办法有很多种,不同的场景解决方案也不一样,数据量很小的情况下,怎么搞都行,但是数据量很大的时候,这就不是一个简单的问题了

几百万的数据,不可能查出来去重处理!

说一下我Google到的解决方案。

1、insert ignore into

当插入数据时,如出现错误时,如重复数据,将不返回错误,只以警告形式返回。所以使用ignore请确保语句本身没有问题,否则也会被忽略掉。例如:
INSERT IGNORE INTO user (nameVALUES ('telami')
这种方法很简便,但是有一种可能,就是插入不是因为重复数据报错,而是因为其他原因报错的,也同样被忽略了~

2、on duplicate key update

当primary或者unique重复时,则执行update语句,如update后为无用语句,如id=id,则同1功能相同,但错误不会被忽略掉。

例如,为了实现name重复的数据插入不报错,可使用一下语句:

INSERT INTO user (nameVALUES ('telami'ON duplicate KEY UPDATE id = id

这种方法有个前提条件,就是,需要插入的约束,需要是主键或者唯一约束(在你的业务中那个要作为唯一的判断就将那个字段设置为唯一约束也就是unique key)。

3、insert … select … where not exist

根据select的条件判断是否插入,可以不光通过primary 和unique来判断,也可通过其它条件。例如:

INSERT INTO user (nameSELECT 'telami' FROM dual WHERE NOT EXISTS (SELECT id FROM user WHERE id = 1)

这种方法其实就是使用了mysql的一个临时表的方式,但是里面使用到了子查询,效率也会有一点点影响,如果能使用上面的就不使用这个。

4、replace into

如果存在primary or unique相同的记录,则先删除掉。再插入新记录。

REPLACE INTO user SELECT 1'telami' FROM books

这种方法就是不管原来有没有相同的记录,都会先删除掉然后再插入。

实践

选择的是第二种方式

<insert id="batchSaveUser" parameterType="list">
    insert into user (id,username,mobile_number)
    values
    <foreach collection="list" item="item" index="index" separator=",">
        (
            #{item.id},
            #{item.username},
            #{item.mobileNumber}
        )
    </foreach>
    ON duplicate KEY UPDATE id = id
</insert>

这里用的是Mybatis,批量插入的一个操作,mobile_number已经加了唯一约束。这样在批量插入时,如果存在手机号相同的话,是不会再插入了的。

 

版权声明
本文为[php开源社区]所创,转载请带上原文链接,感谢
https://my.oschina.net/u/4479011/blog/5011766

  1. SCIP: constructing data abstraction -- Explanation of queue and tree in data structure
  2. Spring cloud + Nacos to implement service registry (Hoxton version)
  3. Installation and upgrade of rabbitmq server
  4. Lei Jun: Xiaomi's spring conference has been largely streamlined, which will take at least four hours. Some products will be directly released on Weibo
  5. IntelliJ IDEA 2021最新激活码(亲测有效,可激活至 2089 年)
  6. java版本spring cloud+spring boot+mybatis 分布式商城 微服务商城 多租户商城 电子商务 直播带货商城 社交电商
  7. win10安装Redis5.0
  8. (十五)springboot电子商务商城之SpringCloud-使用Eureka集群搭建实现高可用服务注册中心
  9. (十四)springboot电子商务商城之SpringCloud-Eureka自我保护模式和InstanceID的配置
  10. 花生壳内网穿透(Linux版)
  11. Docker部署elasticsearch(单机)
  12. (十三)springboot电子商务商城之SpringCloud-使用Eureka集群搭建实现高可用服务注册中心
  13. (十二)springboot电子商务商城之Eureka注册中心开启密码认证
  14. 七、Spring Boot 集成 Thymeleaf 模板引擎
  15. mysql 命令行秒复制数据库
  16. Windows安装Mysql(msi 图形安装)
  17. The latest activation code of IntelliJ idea 2021
  18. Java应用全链路启动速度提升至15s,阿里云SAE能力再升级
  19. Linux基础命令
  20. Who moved your red envelope? Risk control report of 2021 spring festival activities
  21. Java version spring cloud + spring boot + mybatis distributed mall micro Service Mall multi tenant mall e-commerce live delivery mall social E-commerce
  22. Java 任意音频转MP3
  23. Docker 的 DNS
  24. Docker-搭建日志监控系统
  25. ssm+mysql+maven+shiro进销存系统wms
  26. Installing redis5.0 on win10
  27. (15) Springcloud of springboot E-commerce mall - using Eureka cluster to build and implement high availability service registry
  28. (14) Springcloud Eureka self protection mode and instanceid configuration of springboot E-commerce mall
  29. Peanut shell intranet penetration (Linux version)
  30. Deploying elastic search with docker (stand alone)
  31. (13) Springcloud of springboot E-commerce mall - using Eureka cluster to build and implement high availability service registry
  32. (12) Eureka registry of springboot E-commerce mall opens password authentication
  33. 爱上 Java 的10 大理由!
  34. 7、 Spring boot integrates thymeleaf template engine
  35. 【DB宝41】监控利器PMM的使用--监控MySQL、PG、MongoDB、ProxySQL等
  36. 【DB宝42】MySQL高可用架构MHA+ProxySQL实现读写分离和负载均衡
  37. MySQL command line second replication database
  38. Windows installation of MySQL (MSI graphic installation)
  39. The full link startup speed of Java applications has been increased to 15s, and the SAE capability of alicloud has been upgraded again
  40. Java 学生成绩管理系统课程设计,附源码!
  41. Linux basic command
  42. Java arbitrary audio to MP3
  43. DNS of docker
  44. Docker - build log monitoring system
  45. SSM + MySQL + Maven + Shiro WMS
  46. Top 10 reasons to fall in love with java!
  47. 一本关于HTTP的恋爱日记
  48. 【RocketMQ源码分析】深入消息存储(3)
  49. SpringCloud+Nacos实现服务配置中心(Hoxton版本)
  50. SCIP:构造数据抽象--数据结构中队列与树的解释
  51. SCIP:构造过程抽象--面向对象的解释
  52. 使用 docker 进行 ElasticSearch + Kibana 集群搭建
  53. Spring IOC 特性有哪些,不会读不懂源码!
  54. [DB Bao 41] use of PMM -- monitoring mysql, PG, mongodb, proxysql, etc
  55. Spring Cloud 升级之路 - 2020.0.x - 3. Undertow 的 accesslog 配置
  56. [DB Bao 42] MySQL high availability architecture MHA + proxysql realizes read-write separation and load balancing
  57. [DataGuard] recovery of physical DG in case of losing archive files in main database (7)
  58. MyBatis(3)Map和模糊查询拓展
  59. 【TTS】AIX-&gt;Linux--基于RMAN(真实环境)
  60. 【TTS】传输表空间AIX-&gt;linux基于rman