如何使用pyspark连接到独立的cassandra?

如何使用pyspark连接到独立的cassandra?,pyspark,cassandra,jupyter-notebook,Pyspark,Cassandra,Jupyter Notebook,请原谅这些天真的问题,但我对ML&分布式/无sql数据库是新手。我已经安装了独立的Cassandra和pyspark,并验证了这些安装(从jupyter笔记本验证了pyspark版本,创建了密钥空间/表等)。我的目标是能够使用pyspark(jupyter)连接到本地/独立的cassandra键空间/表 我知道在类似的主题上有一些线程,但大多数似乎都是围绕datastax cassandra而不是独立版本,并且似乎没有一个简单的解决方案来说明如何在本地安装anguenot/pyspark cas

请原谅这些天真的问题,但我对ML&分布式/无sql数据库是新手。我已经安装了独立的Cassandra和pyspark,并验证了这些安装(从jupyter笔记本验证了pyspark版本,创建了密钥空间/表等)。我的目标是能够使用pyspark(jupyter)连接到本地/独立的cassandra键空间/表

我知道在类似的主题上有一些线程,但大多数似乎都是围绕datastax cassandra而不是独立版本,并且似乎没有一个简单的解决方案来说明如何在本地安装anguenot/pyspark cassandra并使连接器工作

以下是迄今为止我所拥有的(windows 10计算机):

  • 在my local中安装了独立的pyspark(C:\spark\spark-2.4.4-bin-hadoop2.7)

  • 在“我的本地”中安装了独立的Cassandra(C:\Cassandra\apache-Cassandra-3.11.4)

  • 下载了zip文件() (C:\Users\\Downloads\pyspark-cassandra-0.7.0.zip)

  • 在我的命令提示符(spark bin目录)上,我尝试运行以下命令:

  • pyspark-py文件C:\Users\\Downloads\\pyspark-cassandra-0.7.0.zip\
    --包anguenot/Pypark cassandra:0.7.0\
    --conf spark.cassandra.connection.host=172.0.0.1
    
  • 我发现以下错误:

  • 感谢您的所有输入。

    我在第一次安装这些组件时遇到了类似的问题,问题是我的路径没有设置为查找Jupyter命令。你能检查一下你的系统路径吗?
    Traceback (most recent call last):
    File “C:\Users\<path>\anaconda3\Scripts\jupyter-script.py”, line 9, in <module>
    sys.exit(main())
    File “C:\Users\<path>\anaconda3\lib\site-packages\jupyter_core\command.py”, line 230, in main
    command = _jupyter_abspath(subcommand)
    File “C:\Users\<path>\anaconda3\lib\site-packages\jupyter_core\command.py”, line 133, in _jupyter_abspath
    ‘Jupyter command `{}` not found.’.format(jupyter_subcommand)
    Exception: Jupyter command `jupyter-notebook` not found.