apache · sudssf · May 18, 2020 · May 19, 2020 · May 21, 2020 · May 24, 2020
diff --git a/api/src/main/java/org/apache/iceberg/types/Types.java b/api/src/main/java/org/apache/iceberg/types/Types.java
@@ -514,28 +514,37 @@ public int hashCode() {
   public static class StructType extends NestedType {
     private static final Joiner FIELD_SEP = Joiner.on(", ");
 
+    public static StructType of(boolean isUnion, NestedField... fields) {
+      return of(Arrays.asList(fields), isUnion);
+    }
+
     public static StructType of(NestedField... fields) {
       return of(Arrays.asList(fields));
     }
 
     public static StructType of(List<NestedField> fields) {
-      return new StructType(fields);
+      return new StructType(fields, false);
     }
 
-    private final NestedField[] fields;
+    public static StructType of(List<NestedField> fields, boolean isUnionSchema) {
+      return new StructType(fields, isUnionSchema);
+    }
 
+    private final NestedField[] fields;
+    private final boolean isUnionSchema;
     // lazy values
     private transient List<NestedField> fieldList = null;
     private transient Map<String, NestedField> fieldsByName = null;
     private transient Map<String, NestedField> fieldsByLowerCaseName = null;
     private transient Map<Integer, NestedField> fieldsById = null;
 
-    private StructType(List<NestedField> fields) {
+    private StructType(List<NestedField> fields, boolean isUnionSchema) {
       Preconditions.checkNotNull(fields, "Field list cannot be null");
       this.fields = new NestedField[fields.size()];
       for (int i = 0; i < this.fields.length; i += 1) {
         this.fields[i] = fields.get(i);
       }
+      this.isUnionSchema = isUnionSchema;
     }
 
     @Override
@@ -641,6 +650,13 @@ private Map<Integer, NestedField> lazyFieldsById() {
       }
       return fieldsById;
     }
+
+    /**
+     * @return true if struct represents union schema
+     */
+    public boolean isUnionSchema() {
+      return isUnionSchema;
+    }
   }
 
   public static class ListType extends NestedType {

diff --git a/core/src/main/java/org/apache/iceberg/avro/AvroSchemaUtil.java b/core/src/main/java/org/apache/iceberg/avro/AvroSchemaUtil.java
@@ -47,20 +47,23 @@ private AvroSchemaUtil() {}
   public static final String VALUE_ID_PROP = "value-id";
   public static final String ELEMENT_ID_PROP = "element-id";
   public static final String ADJUST_TO_UTC_PROP = "adjust-to-utc";
+  public static final String UNION_SCHEMA_TO_RECORD = "union-schema-to-record";
 
   private static final Schema NULL = Schema.create(Schema.Type.NULL);
   private static final Schema.Type MAP = Schema.Type.MAP;
   private static final Schema.Type ARRAY = Schema.Type.ARRAY;
   private static final Schema.Type UNION = Schema.Type.UNION;
   private static final Schema.Type RECORD = Schema.Type.RECORD;
 
-  public static Schema convert(org.apache.iceberg.Schema schema,
-                               String tableName) {
+  public static Schema convert(
+      org.apache.iceberg.Schema schema,
+      String tableName) {
     return convert(schema, ImmutableMap.of(schema.asStruct(), tableName));
   }
 
-  public static Schema convert(org.apache.iceberg.Schema schema,
-                               Map<Types.StructType, String> names) {
+  public static Schema convert(
+      org.apache.iceberg.Schema schema,
+      Map<Types.StructType, String> names) {
     return TypeUtil.visit(schema, new TypeToSchema(names));
   }
 
@@ -99,8 +102,9 @@ public static Schema pruneColumns(Schema schema, Set<Integer> selectedIds, NameM
     return new PruneColumns(selectedIds, nameMapping).rootSchema(schema);
   }
 
-  public static Schema buildAvroProjection(Schema schema, org.apache.iceberg.Schema expected,
-                                           Map<String, String> renames) {
+  public static Schema buildAvroProjection(
+      Schema schema, org.apache.iceberg.Schema expected,
+      Map<String, String> renames) {
     return AvroCustomOrderSchemaVisitor.visit(schema, new BuildAvroProjection(expected, renames));
   }
 
@@ -120,7 +124,7 @@ public static boolean isTimestamptz(Schema schema) {
   }
 
   public static boolean isOptionSchema(Schema schema) {
-    if (schema.getType() == UNION && schema.getTypes().size() == 2) {
+    if (schema.getType() == UNION && schema.getTypes().size() >= 2) {
       if (schema.getTypes().get(0).getType() == Schema.Type.NULL) {
         return true;
       } else if (schema.getTypes().get(1).getType() == Schema.Type.NULL) {
@@ -166,8 +170,9 @@ public static boolean isKeyValueSchema(Schema schema) {
     return schema.getType() == RECORD && schema.getFields().size() == 2;
   }
 
-  static Schema createMap(int keyId, Schema keySchema,
-                          int valueId, Schema valueSchema) {
+  static Schema createMap(
+      int keyId, Schema keySchema,
+      int valueId, Schema valueSchema) {
     String keyValueName = "k" + keyId + "_v" + valueId;
 
     Schema.Field keyField = new Schema.Field("key", keySchema, null, (Object) null);
@@ -181,9 +186,10 @@ static Schema createMap(int keyId, Schema keySchema,
         keyValueName, null, null, false, ImmutableList.of(keyField, valueField))));
   }
 
-  static Schema createProjectionMap(String recordName,
-                          int keyId, String keyName, Schema keySchema,
-                          int valueId, String valueName, Schema valueSchema) {
+  static Schema createProjectionMap(
+      String recordName,
+      int keyId, String keyName, Schema keySchema,
+      int valueId, String valueName, Schema valueSchema) {
     String keyValueName = "k" + keyId + "_v" + valueId;
 
     Schema.Field keyField = new Schema.Field("key", keySchema, null, (Object) null);

diff --git a/core/src/main/java/org/apache/iceberg/avro/GenericAvroWriter.java b/core/src/main/java/org/apache/iceberg/avro/GenericAvroWriter.java
@@ -21,10 +21,13 @@
 
 import com.google.common.base.Preconditions;
 import java.io.IOException;
+import java.lang.reflect.Array;
 import java.util.List;
+import java.util.stream.Collectors;
 import org.apache.avro.LogicalType;
 import org.apache.avro.LogicalTypes;
 import org.apache.avro.Schema;
+import org.apache.avro.generic.GenericData;
 import org.apache.avro.io.DatumWriter;
 import org.apache.avro.io.Encoder;
 
@@ -52,7 +55,12 @@ private WriteBuilder() {
 
     @Override
     public ValueWriter<?> record(Schema record, List<String> names, List<ValueWriter<?>> fields) {
-      return ValueWriters.record(fields);
+      Object isUnionSchema = record.getObjectProp(AvroSchemaUtil.UNION_SCHEMA_TO_RECORD);
+      if (isUnionSchema != null && (boolean) isUnionSchema) {
+        return new UnionSchemaWriter<>(record, fields);
+      } else {
+        return ValueWriters.record(fields);
+      }
     }
 
     @Override
@@ -133,4 +141,38 @@ public ValueWriter<?> primitive(Schema primitive) {
       }
     }
   }
+
+  public static class UnionSchemaWriter<V extends Object> implements ValueWriter<V> {
+    private final ValueWriter<Object>[] writers;
+    private final Schema schema;
+
+    @SuppressWarnings("unchecked")
+    protected UnionSchemaWriter(Schema schema, List<ValueWriter<?>> writers) {
+      this.schema = Schema.createUnion(schema.getFields()
+          .stream()
+          .flatMap(x -> x.schema().getTypes().stream())
+          .filter(x -> x.getType() != Schema.Type.NULL) // only process non-null types
+          .collect(Collectors.toList()));
+      this.writers = (ValueWriter<Object>[]) Array.newInstance(ValueWriter.class, writers.size());
+      for (int i = 0; i < this.writers.length; i += 1) {
+        this.writers[i] = (ValueWriter<Object>) writers.get(i);
+      }
+    }
+
+    public ValueWriter<?> writer(int pos) {
+      return writers[pos];
+    }
+
+    @Override
+    public void write(V row, Encoder encoder) throws IOException {
+      int index = GenericData.get().resolveUnion(schema, row);
+      for (int i = 0; i < this.writers.length; i += 1) {
+        if (i == index) {
+          writers[i].write(row, encoder);
+        } else {
+          writers[i].write(null, encoder);
+        }
+      }
+    }
+  }
 }
diff --git a/core/src/main/java/org/apache/iceberg/avro/SchemaToType.java b/core/src/main/java/org/apache/iceberg/avro/SchemaToType.java
@@ -106,11 +106,27 @@ public Type record(Schema record, List<String> names, List<Type> fieldTypes) {
   public Type union(Schema union, List<Type> options) {
     Preconditions.checkArgument(AvroSchemaUtil.isOptionSchema(union),
         "Unsupported type: non-option union: %s", union);
-    // records, arrays, and maps will check nullability later
-    if (options.get(0) == null) {
-      return options.get(1);
-    } else {
+    if (options.size() == 1) {
       return options.get(0);
+    } else if (options.size() == 2) {
+      if (options.get(0) == null) {
+        return options.get(1);
+      } else {
+        return options.get(0);
+      }
+    } else {
+      // Convert complex unions to struct types where field names are member0, member1, etc.
+      // This is consistent with the behavior of the spark Avro SchemaConverter
+      List<Types.NestedField> fields = Lists.newArrayListWithExpectedSize(options.size());
+      for (int i = 0; i < options.size(); i += 1) {
+        Type fieldType = options.get(i);
+        if (fieldType == null) {
+          continue;
+        }
+        // All fields are optional because only one of them is set at a time
+        fields.add(Types.NestedField.optional(allocateId(), "member" + i, fieldType));
+      }
+      return Types.StructType.of(fields, true);
     }
   }
 
@@ -133,7 +149,6 @@ public Type array(Schema array, Type elementType) {
         return Types.MapType.ofRequired(
             keyField.fieldId(), valueField.fieldId(), keyField.type(), valueField.type());
       }
-
     } else {
       // normal array
       Schema elementSchema = array.getElementType();
@@ -169,18 +184,15 @@ public Type primitive(Schema primitive) {
         return Types.DecimalType.of(
             ((LogicalTypes.Decimal) logical).getPrecision(),
             ((LogicalTypes.Decimal) logical).getScale());
-
       } else if (logical instanceof LogicalTypes.Date) {
         return Types.DateType.get();
-
       } else if (
           logical instanceof LogicalTypes.TimeMillis ||
-          logical instanceof LogicalTypes.TimeMicros) {
+              logical instanceof LogicalTypes.TimeMicros) {
         return Types.TimeType.get();
-
       } else if (
           logical instanceof LogicalTypes.TimestampMillis ||
-          logical instanceof LogicalTypes.TimestampMicros) {
+              logical instanceof LogicalTypes.TimestampMicros) {
         Object adjustToUTC = primitive.getObjectProp(AvroSchemaUtil.ADJUST_TO_UTC_PROP);
         Preconditions.checkArgument(adjustToUTC instanceof Boolean,
             "Invalid value for adjust-to-utc: %s", adjustToUTC);
@@ -189,7 +201,6 @@ public Type primitive(Schema primitive) {
         } else {
           return Types.TimestampType.withoutZone();
         }
-
       } else if (LogicalTypes.uuid().getName().equals(name)) {
         return Types.UUIDType.get();
       }

diff --git a/core/src/main/java/org/apache/iceberg/avro/TypeToSchema.java b/core/src/main/java/org/apache/iceberg/avro/TypeToSchema.java
@@ -100,7 +100,7 @@ public Schema struct(Types.StructType struct, List<Schema> fieldSchemas) {
       Types.NestedField structField = structFields.get(i);
       String origFieldName = structField.name();
       boolean isValidFieldName = AvroSchemaUtil.validAvroName(origFieldName);
-      String fieldName =  isValidFieldName ? origFieldName : AvroSchemaUtil.sanitize(origFieldName);
+      String fieldName = isValidFieldName ? origFieldName : AvroSchemaUtil.sanitize(origFieldName);
       Schema.Field field = new Schema.Field(
           fieldName, fieldSchemas.get(i), null,
           structField.isOptional() ? JsonProperties.NULL_VALUE : null);
@@ -112,7 +112,9 @@ public Schema struct(Types.StructType struct, List<Schema> fieldSchemas) {
     }
 
     recordSchema = Schema.createRecord(recordName, null, null, false, fields);
-
+    if (struct.isUnionSchema()) {
+      recordSchema.addProp(AvroSchemaUtil.UNION_SCHEMA_TO_RECORD, true);
+    }
     results.put(struct, recordSchema);
 
     return recordSchema;
@@ -160,7 +162,6 @@ public Schema map(Types.MapType map, Schema keySchema, Schema valueSchema) {
           map.isValueOptional() ? AvroSchemaUtil.toOption(valueSchema) : valueSchema);
       mapSchema.addProp(AvroSchemaUtil.KEY_ID_PROP, map.keyId());
       mapSchema.addProp(AvroSchemaUtil.VALUE_ID_PROP, map.valueId());
-
     } else {
       mapSchema = AvroSchemaUtil.createMap(map.keyId(), keySchema,
           map.valueId(), map.isValueOptional() ? AvroSchemaUtil.toOption(valueSchema) : valueSchema);