Sagemaker PySpark:内核已死亡

Sagemaker PySpark:内核已死亡,pyspark,jupyter,amazon-sagemaker,Pyspark,Jupyter,Amazon Sagemaker,我按照说明设置了一个EMR集群和一个SageMaker笔记本。直到最后一步,我才发现任何错误 当我在Sagemaker中打开一个新笔记本时,我会收到以下信息: The kernel appears to have died. It will restart automatically. 然后: The kernel has died, and the automatic restart has failed. It is possible the kernel

我按照说明设置了一个EMR集群和一个SageMaker笔记本。直到最后一步,我才发现任何错误

当我在Sagemaker中打开一个新笔记本时,我会收到以下信息:

The kernel appears to have died. It will restart automatically.
然后:

        The kernel has died, and the automatic restart has failed.
        It is possible the kernel cannot be restarted. 
        If you are not able to restart the kernel, you will still be able to save the 
notebook, but running code will no longer work until the notebook is reopened.
只有在使用pyspark/Sparkmagic内核时才会发生这种情况。使用Conda内核或任何其他内核打开的笔记本都可以正常工作

我的EMR群集完全按照说明进行设置,并添加了一条规则:

[
  {
    "Classification": "spark",
    "Properties": {
      "maximizeResourceAllocation": "true"
    }
  }
]
如果有任何关于为什么会发生这种情况以及如何调试/修复的建议,我将不胜感激


注:我过去成功地做到了这一点,没有任何问题。当我今天尝试重新这样做时,我遇到了这个问题。我试着重新创建EMR集群和Sagemaker笔记本,但没有任何帮助

感谢您使用亚马逊SageMaker

这里的问题是Pandas 0.23.0更改了名为DataError的核心类的位置,并且SparkMagic尚未更新为要求正确命名空间中的DataError

此问题的解决方法是使用
pip install Pandas==0.22.0
降级SageMaker笔记本实例中的Pandas版本

您可以在这个公开的github问题中获得更多信息

让我们知道,如果有任何其他方式,我们可以提供帮助

谢谢,
尼拉姆