sparkhadooppatch

Jar File containing patched Hadoop-MapReduce-Client 2.7.2 with DirectOutputCommitter

This allows direct saving to S3 without creating a _temporary directory on S3 first. Add jar file to Spark Jar Path and this entry to spark-defaults.conf

spark.hadoop.mapred.output.committer.class org.apache.hadoop.mapred.DirectOutputCommitter

Hadoop 2.7.2

Thanks to Databricks for their Scala version

https://gist.github.com/aarondav/c513916e72101bbe14ec

Name		Name	Last commit message	Last commit date
Latest commit History 2 Commits
DirectOutputCommitter.java		DirectOutputCommitter.java
LICENSE		LICENSE
README.md		README.md
hadoop-mapreduce-client-core-2.7.2.jar		hadoop-mapreduce-client-core-2.7.2.jar

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

sparkhadooppatch

About

Uh oh!

Releases

Packages

Languages

License

davidwin93/sparkhadooppatch

Folders and files

Latest commit

History

Repository files navigation

sparkhadooppatch

About

Resources

License

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages