Csv 有没有一种简单的方法可以直接将拼花地板文件加载到Cassandra中？_Csv_Import_Cassandra_Parquet

Csv 有没有一种简单的方法可以直接将拼花地板文件加载到Cassandra中？

csv import cassandra

Csv 有没有一种简单的方法可以直接将拼花地板文件加载到Cassandra中？,csv,import,cassandra,parquet,Csv,Import,Cassandra,Parquet,我有一个拼花文件/文件夹（大约1GB），我想加载到我的本地Cassandra数据库中。不幸的是，我找不到任何方法（除了通过SPARK（在Scala中））直接将该文件加载到CDB中。如果我把拼花地板文件吹成CSV文件，它对我的笔记本电脑来说就太大了我正在为一个大数据分析案例建立一个Cassandra数据库（我有大约25TB的原始数据，需要快速搜索）。现在，我正在运行一些本地测试，研究如何在作为Hyperscaler上的服务迁移到Cassandra之前优化设计键空间、索引和表。将数据转换为CSV不

我有一个拼花文件/文件夹（大约1GB），我想加载到我的本地Cassandra数据库中。不幸的是，我找不到任何方法（除了通过SPARK（在Scala中））直接将该文件加载到CDB中。如果我把拼花地板文件吹成CSV文件，它对我的笔记本电脑来说就太大了

我正在为一个大数据分析案例建立一个Cassandra数据库（我有大约25TB的原始数据，需要快速搜索）。现在，我正在运行一些本地测试，研究如何在作为Hyperscaler上的服务迁移到Cassandra之前优化设计键空间、索引和表。将数据转换为CSV不是一个选项，因为这会引起太多的麻烦

COPY firmographics.company (col1,col2,col3.....) FROM 'C:\Users\Public\Downloads\companies.csv' WITH DELIMITER='\t' AND HEADER=TRUE;

事实证明，就像我说的，在SPARK中写下这篇文章很容易。下面是我的代码：

import findspark

from pyspark.sql import SparkSession  
findspark.init()

spark = SparkSession\
    .builder\
    .appName("Spark Exploration App")\
    .config('spark.jars.packages', 'com.datastax.spark:spark-cassandra-connector_2.11:2.3.2')\
    .getOrCreate()

import pandas as pd
df = spark.read.parquet("/PATH/TO/FILE/")

import time
start = time.time()

df2.drop('filename').write\
    .format("org.apache.spark.sql.cassandra")\
    .mode('append')\
    .options(table="few_com", keyspace="bmbr")\
    .save()

end = time.time()
print(end - start)

为什么不使用Spark？对于这么小的任务来说，似乎有很多开销。。。我想知道是否有其他人提出了更精简的解决方案从时间的角度来看，使用Spark一次（在本地模式下）比尝试转换为CSV并加载更容易…所以您要转换为CSV然后加载？不是直接通过

com.datasax.spark.connector

？不是，反之亦然-只需使用spar.read.parquet并通过spark cassandra connector保存-这是spark shellHI中的2或3个命令-我想知道如果我想将其上载到AWS Keyspace cassandra DB怎么办？