使用shell分页读取600万+的MySQL数据脚本是怎么做到的-MySQL-IT技术网

shell-mysql

(1)脚本背景:

由于要在Linux上，远程读取mysql的表的数据，然后做一定清洗后，把数据上传至Hadoop集群中，使用Java写吧，感觉太麻烦了，得在Win上开发好，还得打成jar包，上传到Linux上，如果那里出了问题，还得重复这样，非常不方便，那就用shell写一个吧，也不需要什么jdbc驱动包，只需要在Linux上装个MySQL的客户端即可，用一行yum命令即可搞定，所以就花了点时间，封装了一个小脚本

(2)功能介绍:

直接在Linux下使用shell脚本远程分页读取MySQL表的数据的一个小脚本，已测过读取600万+的数据效率与jdbc相差无几

(3)脚本介绍:

主要有三个脚本构成

1，page.sh 这是一主脚本，里面定义了分页的条件，大家看下便知

2，f.sh 一个小包装的脚本吧，里面会用sed去掉表头一些信息

3，port.sh 分页读取数据的执行脚本

(4)如何使用

使用非常简单，需要改下page.sh里面的查询字段，以及分页查询的数量，默认是10000，然后执行sh page.sh databaseName tableName传入数据库名和表名即可

Github项目地址

#第一个参数表名 #第二个参数是start #第三个参数是offset #分页读取数据后，删除第一行表头，并写入一个文件中，文件名与表名一样 sh port.sh $1 $2 $3 | sed '1d' >> tables/$1 #删除无用的html字符 #sed -i 's/<[^>]*>//g;/^$/d' tables/$1 #删除无用的一些特殊符号 #sed -i 's/[a-zA-Z.():;><-]//g' tables/$1

#登陆mysql，负责查询某个表数据总量 MYSQL=`which mysql` count=`$MYSQL -hmysqlhost --default-character-set=utf8 -P3306 -uname -ppwd <<EOF use $1; select count(1) from $2 ; EOF` #得到某一个表的总数量 count=`echo "$count" | sed '1d' ` #定义一个每页读取的最大数量 pageSize=10000 #计算总共的分页数 totalPage=0; #判断总数量，求模是否等于0，等于0，就是相除多少页 temp=` echo "$count%$pageSize" | bc ` if [ 0 -eq $temp ] ;then totalPage=`echo "$count/$pageSize" | bc` else #否则，就是相除后+1，作为总的分页数 totalPage=`echo "$count/$pageSize+1" | bc` fi echo "总数量：$count 每页读取数量：$pageSize 分页数量：$totalPage" #把总页数减一，方便分页处理，因为后面咱的下标从0开始 totalPage=`echo "$totalPage-1" | bc ` #echo "处理后：$totalPage" #for循环遍历总页数 for page in `seq 0 $totalPage` do #计算每页的偏移量 offset=`echo "$page*$pageSize" | bc ` echo "当前处理到第$page页,分页信息： limit $offset $pageSize " ###第一个参数表名 ###第二个参数偏移量 ###第三个参数每页读取数据 #调用f.sh获取数据 sh f.sh $1 $offset $pageSize done #sed -i 's/<[^>]*>//g;/^$/d' tables/$1 #sed -i 's/[a-zA-Z.():;><-]//g' tables/$1

#连接mysql # -h主机地址 -u用户名 -p密码 #下面的语句，是登陆到数据库后，使用某个数据库，然后根据条件查询表 MYSQL=`which mysql` $MYSQL -hmysqlhost --default-character-set=utf8 -P3306 -uname -ppwd <<EOF use db_conform; select concat_ws('#',ifNull(id,''),ifNULL(title,''),ifNULL(replace(replace(replace(content ,'n','' ), 'r' , '' ),'#','' ) ,''),ifNULL(doc_no,'')) from $1 limit $2 , $3 ; EOF #echo $query

使用shell分页读取600万+的MySQL数据脚本是怎么做到的

ultraedit编辑器打开文件时，总是提示是否转换为DOS格式，如何关闭？

Cornell大神Kleinberg的经典教材《算法设计》是最好入门的算法教材

从 Microsoft 下载中心安装 Windows 7 SP1 和 Windows Server 2008 R2 SP1 之前要执行的步骤

Llama 2基于UCloud UK8S的创新应用

火山引擎DataTester：如何使用A/B测试优化全域营销效果

腾讯云、移动云继阿里云降价后宣布大幅度降价

字节跳动数据平台论文被ICDE2023国际顶会收录，将通过火山引擎开放相关成果

这个话题被围观超10000次，火山引擎VeDI如此解答

误删库怎么办？火山引擎DataLeap“3招”守护数据安全

一文读懂火山引擎数智平台VeDI新品——管理驾驶舱Plus

Gartner：2024年全球半导体营收6559亿美元，AI助力英伟达首登榜首

DDN 与 Google Cloud 合作，推进AI计划

TrendForce集邦咨询: 关税变量对显示器需求与售价及AMOLED上游材料的影响

英特尔® 酷睿™ 处理器(系列2)：为高性能笔记本注入强劲动力

马斯克：特斯拉2024年AI投资百亿，FSD 安全水平将超过人类

技术热点

SQL Server如何识别真实和自动创建的索引

Web开发者不容错过的10个HTML5工具

Ngnix 日志管理及 Shell 实现定时完成日志切割

windows 7系统IE浏览器假死的修复方法

windows7 64位系统重置ie浏览器让其恢复初始状态

Ubuntu 11.0下配置Web服务器详细教程[ 图文]

使用shell分页读取600万+的MySQL数据脚本是怎么做到的

别人在看