在很多小文件场景下,Spark 会起很多 Task,当 SQL 逻辑中存在 Shuffle 操作时,会大大增加 hash 分桶数,严重影响
性能。 Fusioninsighte 中,针对小文件的场景通常采用()算子,来对 Table 中的小文件生成的 partition 进行合并,减
少 partition 数,从而避免在 shuffle 的时候,生成过多的 ash 分桶,提升性能?
A.group by B.coalesce C.connect D.Join正确答案D
在很多小文件场景下,Spark 会起很多 Task,当 SQL 逻辑中存在 Shuffle 操作时,会大大增加 hash 分桶数,严重影响
性能。 Fusioninsighte 中,针对小文件的场景通常采用()算子,来对 Table 中的小文件生成的 partition 进行合并,减
少 partition 数,从而避免在 shuffle 的时候,生成过多的 ash 分桶,提升性能?
A.group by B.coalesce C.connect D.Join正确答案D