Linux培训

快速将Linux 大文件处理小的方法

发布：Linux培训
来源：职场技巧分享
时间：2020-09-24 16:21

今天小编要跟大家分享的文章是关于快速将Linux 大文件处理小的方法。正在从事Linux运维工作的小伙伴们你们了解这个方法吗，来和小编一起看一看吧！

快速将Linux 大文件处理小的方法

1.背景

工作中使用MapReduce任务导出一批含有路径的文件，共计行数300W+，需要检测文件是否在对应的服务器中存在，而文件所在的服务器并非hadoop集群的服务器，因此打算采用bash脚本进行。具体的方法如下(可直接看方法2,方法1效率较低)：

2. 采用的方法

a. 方法1

原本打算使用如下脚本，进行简单验证：

!/bin/bash

count=0

cat oriTest.txt | while read data

count=$(( $count+1 ))

echo $count

dir=echo "$data" | awk -F "\t" '{print $5}'

if [ -e $dir ];then

echo "$data" >> exist.txt

else

echo "$data" >> noexist.txt

done

原始数据格式如下：

name mark id dir

运行时发现处理5000行需要将近4、5分钟的时间(机器为8核)，果断不行啊，随后打算采用多进程的方法来执行，见方法2

b. 方法2

主要是通过将大文件分为小文件，然后对小文件进行后台遍历读取，脚本如下：

!/bin/bash

source ~/.bashrc

判断路径是否存在

readdata(){

cat $1 | while read data

dir=echo "$data" | awk -F "\t" '{print $5}'

if [ -e $dir ];then

echo "$data" >> "exist_$1.txt"

else

echo "$data" >> "noexist_$1.txt"

done

}

大文件切分为小文件，生成文件名为xaa,axb等(可以自己命名文件)

split -l 10000 oriTest.txt

declare -a files # 声明数组

files=($(ls x*)) # 分割后的小文件名保存数组

遍历，并后台执行

for i in ${files[@]};do

echo $i

readdata $i &

done

以上就是小编今天为大家分享的关于快速将Linux 大文件处理小的方法，希望本篇文章能够对正在从事Linux运维工作的小伙伴们有所帮助，想要了解更多Linux相关知识记得关注达内 Linux培训官网，最后祝愿小伙伴们工作顺利，成为一名优秀的Linux运维工程师。

来源：twt社区

整理：大数据肌肉猿

【免责声明：本文图片及文字信息均由小编转载自网络，旨在分享提供阅读，版权归原作者所有，如有侵权请联系我们进行删除。】

预约申请免费试听课

填写下面表单即可预约申请免费试听！怕学不会？助教全程陪读，随时解惑！担心就业？一地学习，可全国推荐就业！

上一篇：Linux运维人员常用的服务器监控工具有哪些

下一篇：送给运维人员的8个编写脚本的建议

相关推荐

: 云计算就业前景如何

在数字化转型加速推进的今天，云计算作为底层核心技术，其云计算就业前景成为众多求职者和从业者关注的焦点。从互联网巨头到传统企业，对云计算人才的需求日益增长，深入了解这一领域的就业前景，能为职业选择提供关键参考，而新达内教育则能助力大家抓住这一机遇。

: 云计算就业培训靠谱吗

在云计算行业人才缺口持续扩大的背景下，云计算就业培训成为许多人快速入行的选择，但 “培训是否靠谱” 也成了大家普遍关心的问题。事实上，靠谱的云计算就业培训能帮学员系统掌握技能、对接企业需求，而选择专业机构是关键，新达内教育便是其中的优质代表。

: 学云计算的好处

在数字化时代，云计算作为核心技术之一，正重塑各行各业的运作模式。学云计算的好处日益凸显，不仅能为个人职业发展开辟新路径，还能提升应对技术变革的能力。但不少人虽知晓其价值，却不知如何系统学习，而新达内教育培训凭借专业的课程体系，成为助力大众掌握云计算技能、享受学习好处的优质平台。

: 杭州云计算培训班怎么选

随着数字经济的蓬勃发展，杭州作为互联网产业高地，对云计算人才的需求日益旺盛。许多求职者和转行人士希望通过参加云计算培训班掌握专业技能，但面对市面上五花八门的机构，“杭州云计算培训班怎么选” 成为大家普遍困惑的问题。本文将从核心维度给出选择建议，并推荐兼具实力与口碑的新达内教育培训。