hive从mysql导入数据量变多的解决方案

站长资源 2024/12/28 佚名

24 1538 24

铁雪资源网 Design By www.gsvan.com

原始导数命令：

bin/sqoop import -connect jdbc:mysql://192.168.169.128:3306/yubei -username root -password 123456 -table yl_city_mgr_evt_info --split-by rec_id -m 4 --fields-terminated-by "\t" --lines-terminated-by "\n" --hive-import --hive-overwrite -create-hive-table -delete-target-dir -hive-database default -hive-table yl_city_mgr_evt_info

原因分析：可能是mysql中字段里面有'\n'等分隔符，导入hive时默认以'n'作换行符，导致hive中的记录数变多。

解决方法：

导入数据时加上--hive-drop-import-delims选项，会删除字段中的\n,\r,\01。

最终导数命令：

bin/sqoop import -connect jdbc:mysql://192.168.169.128:3306/yubei -username root -password 123456 -table yl_city_mgr_evt_info --split-by rec_id -m 4 --hive-drop-import-delims --fields-terminated-by "\t" --lines-terminated-by "\n" --hive-import --hive-overwrite -create-hive-table -delete-target-dir -hive-database default -hive-table yl_city_mgr_evt_info

参考官方文档：https://sqoop.apache.org/docs/1.4.7/SqoopUserGuide.html

补充：Sqoop导入MySQL数据到Hive遇到的坑

1.sqoop导入到HDFS

1.1执行sqoop job，会自动更新last value

# sqoop 增量导入脚本
bin/sqoop job --create sqoop_hdfs_test02 -- import --connect jdbc:mysql://localhost:3306/pactera_test --username root --password 123456 --table student --target-dir /user/sqoop/test002/ --fields-terminated-by "\t" --check-column last_modified --incremental lastmodified --last-value "2018-12-12 00:03:00" --append

说明：--append 参数是必须的，要不然第二次运行job 会报错，如下：

至此，sqoop job 已建设完毕！

2.Hive创建表，并读取sqoop导入的数据

create external table if not exists student_hive (SId int,Sname string ,Sage string,Ssex string , last_modified Timestamp) 
row format delimited fields terminated by '\t' location 'hdfs://node01:8020/user/sqoop/test002/';

注意：此处hive中时间的格式为timestamp，设置为date DB数据无法正常加载。

第一次全量加载，整条路线完全OK，hive表可以查询到数据。

-----------------------重点分割线-----------------------

* sqoop lastmodified格式的增量加载，会将last-value 保存为job执行的系统时间，若测试数据库的check-column 小于当前系统时间（即上一个job的last-value），则数据将不被加载。

如SId=6 就没有被加载，遂改为今日时间（2018-12-26 17:05）进行数据测试，数据成功被加载！哟呵！！

总结：

使用lastmodified格式，进行sqoop增量导入时，

1.注意--append的使用；

2.last-value为job运行的系统时间，在数据测试时，要保证数据的准确，数据的自增长。

3.一切皆有定数，查看资料，准确定位自己系统遇到的问题

以上为个人经验，希望能给大家一个参考，也希望大家多多支持。如有错误或未考虑完全的地方，望不吝赐教。

hive,mysql,导入数据量变多

标签：

hive,mysql,导入数据量变多

铁雪资源网 Design By www.gsvan.com

广告合作：本站广告合作请联系QQ：858582 申请时备注：广告合作（否则不回）
免责声明：本站文章均来自网站采集或用户投稿，网站不提供任何软件下载或自行开发的软件！如有用户或公司发现本站内容信息存在侵权行为，请邮件告知！ 858582#qq.com

铁雪资源网 Design By www.gsvan.com

评论“hive从mysql导入数据量变多的解决方案”

暂无hive从mysql导入数据量变多的解决方案的评论...

www.gsvan.com 铁雪资源网

39,976影音资源

144,792福利资源

1,817软件资源

431,128技术资源

最新文章

群星《奔赴！万人现场第2期》[FLAC/分轨][5

2024/12/28

群星《奇妙浪一夏 (上海迪士尼度假区音乐)》

2024/12/28

群星《奇妙浪一夏 (上海迪士尼度假区音乐)》

2024/12/28

【古典音乐】詹姆斯·高威《季节》1993[WAV+

2024/12/28

贝拉芳蒂《卡里普索之王》SACD[WAV+CUE]

2024/12/28

一句话新闻

苹果官宣WWDC 2024！预计会有大批AI功能 - 2024/12/28

3月27日消息，苹果宣布2024年全球开发者大会（WWDC）将于6月10日至6月14日举行，巧合的是，这次大会与端午假期重合。

苹果官方表示：

在线参加 Apple 每年规模最大的开发者盛会。亲眼见证 Apple 最新平台、技术和工具的发布。了解如何创建和改进你的 App 和游戏。与 Apple 设计师和工程师互动交流，与全球开发者社区建立联系。以上活动均免费在线举行。

探索各种新的工具、框架和功能，助力你打造出理想的 App 和游戏。通过视频讲座学习新技能，与 Apple 专家进行一对一会面，以推进你的项目，完善你的构思。

Swift Student Challenge 旨在支持和鼓舞下一代开发者、创作者和企业家。太平洋时间 3 月 28 日，我们将公布今年的获奖者名单。获奖者将有资格参加在 Apple Park 举办的特别活动。我们还会选出 50 名杰出获胜者，他们将受邀前往库比提诺，获得为期三天的非凡体验，包括参加 Apple Park 的特别活动。

hive从mysql导入数据量变多的解决方案

解决方法：

1.sqoop导入到HDFS

2.Hive创建表，并读取sqoop导入的数据

总结：

hive,mysql,导入数据量变多

使用mysql记录从url返回的http GET请求数据操作

navicat 连接数据库隔段时间后自动断开连接的解决方案

评论“hive从mysql导入数据量变多的解决方案”

RTX 5090要首发性能要翻倍！三星展示GDDR7显存

友情链接

hive从mysql导入数据量变多的解决方案

解决方法：

1.sqoop导入到HDFS

2.Hive创建表，并读取sqoop导入的数据

总结：

hive,mysql,导入数据量变多

使用mysql记录从url返回的http GET请求数据操作

navicat 连接数据库隔段时间后自动断开连接的解决方案

评论“hive从mysql导入数据量变多的解决方案”

RTX 5090要首发 性能要翻倍！三星展示GDDR7显存

友情链接

RTX 5090要首发性能要翻倍！三星展示GDDR7显存