用Java或scala将CSV转换为Avro文件_Java_Scala_Csv_Avro

用Java或scala将CSV转换为Avro文件

java scala csv

用Java或scala将CSV转换为Avro文件,java,scala,csv,avro,Java,Scala,Csv,Avro,是否有用于将CSV转换为Java或scala中的Avro文件的库我试图用谷歌搜索它，但找不到它的任何库。通过谷歌搜索，我找到了这篇文章：引述：要使用Hive将csv数据转换为Avro数据，我们需要执行以下步骤：创建存储为textfile的配置单元表，并指定csv分隔符使用“加载数据”命令将csv文件加载到上表使用AvroSerDe创建另一个配置单元表使用“插入覆盖”命令将数据从以前的表插入新的Avro配置单元表示例：使用csv（学生id、科目id、年级）您可以通过以下方式轻松完

是否有用于将CSV转换为Java或scala中的Avro文件的库

我试图用谷歌搜索它，但找不到它的任何库。

通过谷歌搜索，我找到了这篇文章：

引述：

要使用Hive将csv数据转换为Avro数据，我们需要执行以下步骤：

创建存储为textfile的配置单元表，并指定csv分隔符

使用“加载数据”命令将csv文件加载到上表

使用AvroSerDe创建另一个配置单元表

使用“插入覆盖”命令将数据从以前的表插入新的Avro配置单元表

示例：使用csv（学生id、科目id、年级）

您可以通过以下方式轻松完成：

使用OpenCSV库解析您的CSV（）
使用json智能库（）输出Avro json（用于模式）

file = sc.textFile("people.csv")
df = file.map(lambda line: line.split(',')).toDF(['name','age'])

>>> df.show()
+-------+---+
|   name|age|
+-------+---+
|Michael| 29|
|   Andy| 30|
| Justin| 19|
+-------+---+

df.write.format("com.databricks.spark.avro").save("peopleavro")

{u'age': u' 29', u'name': u'Michael'}
{u'age': u' 30', u'name': u'Andy'}
{u'age': u' 19', u'name': u'Justin'}

schema = StructType([StructField("name",StringType(),True),StructField("age",IntegerType(),True)])

df = file.map(lambda line: line.split(',')).toDF(schema)
>>> df.printSchema()
root
 |-- name: string (nullable = true)
 |-- age: integer (nullable = true)

{
  "type" : "record",
  "name" : "topLevelRecord",
  "fields" : [ {
    "name" : "name",
    "type" : [ "string", "null" ]
  }, {
    "name" : "age",
    "type" : [ "int", "null" ]
  } ]
}

val df=spark.read.csv（“example.csv”）
df.write.format（“com.databricks.spark.avro”）.save（“example.avro”）

schema = StructType([StructField("name",StringType(),True),StructField("age",IntegerType(),True)])

df = file.map(lambda line: line.split(',')).toDF(schema)
>>> df.printSchema()
root
 |-- name: string (nullable = true)
 |-- age: integer (nullable = true)

{
  "type" : "record",
  "name" : "topLevelRecord",
  "fields" : [ {
    "name" : "name",
    "type" : [ "string", "null" ]
  }, {
    "name" : "age",
    "type" : [ "int", "null" ]
  } ]
}