Spark SQL 表中,经常会存在很多小文件(大小远小于 HDFS 块大小),在这种情況下,Spark 会启动更多的 Task
来处理这些小文件,当 SQL 逻辑中存在 Shuffle 操作时,会大大增加 hash 分桶数从而严重影响性能。
A.正确 B.错误正确答案B
Spark SQL 表中,经常会存在很多小文件(大小远小于 HDFS 块大小),在这种情況下,Spark 会启动更多的 Task
来处理这些小文件,当 SQL 逻辑中存在 Shuffle 操作时,会大大增加 hash 分桶数从而严重影响性能。
A.正确 B.错误正确答案B