Sockets 提交主机和执行主机之间的套接字意外关闭

Sockets 提交主机和执行主机之间的套接字意外关闭,sockets,sas,cluster-computing,winscp,Sockets,Sas,Cluster Computing,Winscp,我正在尝试在群集上运行SAS文件。SAS文件myprogram.SAS的内容如下所示: data a; input myvar1; myvar2 = myvar1 + 100 ; datalines; 0 1 2 3 4 5 ; proc print; run; 我创建了一个Condor文件来在集群上执行SAS文件。Condor文件myendorcode.Condor的内容如下所示,只是我更改

我正在尝试在群集上运行
SAS
文件。
SAS
文件
myprogram.SAS
的内容如下所示:

data a;
   input myvar1;
   myvar2 = myvar1 + 100 ;
   datalines;
       0
       1
       2
       3
       4
       5
;
proc print;
run;
我创建了一个
Condor
文件来在集群上执行
SAS
文件。
Condor
文件
myendorcode.Condor
的内容如下所示,只是我更改了电子邮件地址:

####################
#
# Submit SAS code to Condor cluster
#
# Submit this to run on the cluster with condor_submit THIS-FILENAME.condor
#
####################

UNIVERSE                = vanilla
NOTIFICATION            = Complete
NOTIFY_USER             = mark.miller@zzz.org

REQUIREMENTS            = (OpSys == "LINUX" && HAS_SAS )
GETENV                  = TRUE

EXECUTABLE              = /usr/local/bin/sas
ARGUMENTS               = -nodms -noterminal
INPUT                   = myprogram.sas
OUTPUT                  = $(INPUT).out
ERROR                   = $(INPUT).err
LOG                     = $(INPUT).log

QUEUE
我使用一个名为
WinSCP.exe
的应用程序将
SAS
Condor
文件复制到集群中,我猜该应用程序会将
SAS
文件转换成集群可以理解的格式,就像
dos2unix
命令一样

然后我使用
PuTTY
SAS
文件提交到集群,方法是键入:

condor_submit mycondorcode.condor
当我打字时:

condor_q
我明白了:

 ID      OWNER            SUBMITTED     RUN_TIME ST PRI SIZE CMD
58683.0   markm          11/24 14:41   0+00:00:00 I  0   0.0  sas -nodms -noterm
无论我等待多长时间,状态(
ST
)仍保持为
I

我可以在我的目录中看到一个名为
myprogram.sas
的文本文件,其中包含以下内容(除了我更改了电子邮件地址和看起来可能是IP地址的数字):

000(58683.000.000)11/24 14:41:55从主机提交的作业:
...
022(58683.000.000)11/24 14:42:56作业已断开连接,正在尝试重新连接
提交主机和执行主机之间的套接字意外关闭
正在尝试重新连接到slot1@node13.hpc.zzz.org 
...
024(58683.000.000)11/24 14:42:56作业重新连接失败
在执行计算机上找不到作业
无法重新连接到slot1@node13.hpc.zzz.org,重新安排工作
...
022(58683.000.000)11/24 14:43:56作业已断开连接,正在尝试重新连接
提交主机和执行主机之间的套接字意外关闭
正在尝试重新连接到slot1@node13.hpc.zzz.org 
...
024(58683.000.000)11/24 14:43:56作业重新连接失败
在执行计算机上找不到作业
无法重新连接到slot1@node13.hpc.zzz.org,重新安排工作
...
022(58683.000.000)11/24 14:44:56作业已断开连接,正在尝试重新连接
提交主机和执行主机之间的套接字意外关闭
正在尝试重新连接到slot1@node13.hpc.zzz.org 
...
024(58683.000.000)11/24 14:44:56作业重新连接失败
在执行计算机上找不到作业
无法重新连接到slot1@node13.hpc.zzz.org,重新安排工作
...
022(58683.000.000)11/24 14:45:57作业已断开连接,正在尝试重新连接
提交主机和执行主机之间的套接字意外关闭
正在尝试重新连接到slot1@node13.hpc.zzz.org 
...
024(58683.000.000)11/24 14:45:57作业重新连接失败
在执行计算机上找不到作业
无法重新连接到slot1@node13.hpc.zzz.org,重新安排工作
...
我从未成功使用过此群集,但在其他群集上运行过
R
。我对当前集群几乎一无所知。根据我上面提供的信息,我是否做了一些不正确的事情,或者是否存在连接问题,必须由运行群集的it部门解决


感谢您提供的任何建议,我可能会尝试从Windows桌面解决此问题,而我通常对
Unix
群集
几乎完全不熟悉。也许我用
WinSCP.exe
做了一些不正确的事情。也许我可以尝试使用
dos2unix

WinSCP是一种文件传输软件,而不是使用
WinSCP
;您可以使用它进行FTP、sFTP或其他各种操作。如果您指示它使用文本模式,它将像几乎任何其他FTP程序一样,将CRLF转换为LF或LF(如果从Windows转换为*nix)。您当然可以检查线路以验证是否发生了这种情况。我首先要检查的是
myprogram.sas
路径是否正确-至少在测试期间,我会显式地对它进行路径设置(
/usr/doc/mysas/myprogram.sas
);但当错误实际上是“找不到文件”时,答案通常是完整路径。默认情况下,WinSCP使用二进制传输模式。“你需要,如果你需要的话。”MartinPrikryl谢谢你。我想上周有人帮我做了,但我仍然看到上面的错误。我没有在我的帖子中提到这一点。当然,也许这个人所做的改变是不正确的。有什么方法可以检查文件传输到集群后的格式是否正确?IT人员能够解决问题,套接字错误被消除。但是,我不知道IT人员做了什么,因此我无法提供答案。但是,仅此一点还不足以让SAS文件运行。在将SAS文件移动到集群后,我仍然必须使用Notepad++将SAS文件的格式更改为Unix脚本。然后我不得不将Condor文件中的行:
INPUT=myprogram.sas
更改为:
INPUT=myprogram.sh
。不要将Condor文件转换为Unix脚本格式。
000 (58683.000.000) 11/24 14:41:55 Job submitted from host: <14.4.104.1:42259>
...
022 (58683.000.000) 11/24 14:42:56 Job disconnected, attempting to reconnect
    Socket between submit and execute hosts closed unexpectedly
    Trying to reconnect to slot1@node13.hpc.zzz.org <14.4.104.23:50176>
...
024 (58683.000.000) 11/24 14:42:56 Job reconnection failed
    Job not found at execution machine
    Can not reconnect to slot1@node13.hpc.zzz.org, rescheduling job
...
022 (58683.000.000) 11/24 14:43:56 Job disconnected, attempting to reconnect
    Socket between submit and execute hosts closed unexpectedly
    Trying to reconnect to slot1@node13.hpc.zzz.org <14.4.104.23:50176>
...
024 (58683.000.000) 11/24 14:43:56 Job reconnection failed
    Job not found at execution machine
    Can not reconnect to slot1@node13.hpc.zzz.org, rescheduling job
...
022 (58683.000.000) 11/24 14:44:56 Job disconnected, attempting to reconnect
    Socket between submit and execute hosts closed unexpectedly
    Trying to reconnect to slot1@node13.hpc.zzz.org <14.4.104.23:50176>
...
024 (58683.000.000) 11/24 14:44:56 Job reconnection failed
    Job not found at execution machine
    Can not reconnect to slot1@node13.hpc.zzz.org, rescheduling job
...
022 (58683.000.000) 11/24 14:45:57 Job disconnected, attempting to reconnect
    Socket between submit and execute hosts closed unexpectedly
    Trying to reconnect to slot1@node13.hpc.zzz.org <14.4.104.23:50176>
...
024 (58683.000.000) 11/24 14:45:57 Job reconnection failed
    Job not found at execution machine
    Can not reconnect to slot1@node13.hpc.zzz.org, rescheduling job
...