Python 3.x 从url导入数据集并在python3中将文本转换为csv_Python 3.x_Pandas_Csv

Python 3.x 从url导入数据集并在python3中将文本转换为csv

python-3.x pandas csv

Python 3.x 从url导入数据集并在python3中将文本转换为csv,python-3.x,pandas,csv,Python 3.x,Pandas,Csv,我对Python（使用Python3）非常陌生，阅读Pandas来导入数据集我需要从url导入数据集- 并将其转换为csv文件，我在转换后的csv中获得了一些特殊字符->�� 我正在下载txt文件并将其转换为csv，这是正确的方法吗？转换后的csv将整个文本放在一列中 from urllib.request import urlretrieve import pandas as pd from pandas import DataFrame

我对Python（使用Python3）非常陌生，阅读Pandas来导入数据集

我需要从url导入数据集- 并将其转换为csv文件，我在转换后的csv中获得了一些特殊字符->��

我正在下载txt文件并将其转换为csv，这是正确的方法吗？转换后的csv将整个文本放在一列中

        from urllib.request import urlretrieve

        import pandas as pd
        from pandas import DataFrame

        url = 'https://newonlinecourses.science.psu.edu/stat501/sites/onlinecourses.science.psu.edu.stat501/files/data/leukemia_remission/index.txt'

        urlretrieve(url, 'index.txt')


        df = pd.read_csv('index.txt', sep='/t', engine='python', lineterminator='\r\n')
        csv_file = df.to_csv('index.csv', sep='\t', index=False, header=True)
        print(csv_file)

成功导入后，我必须将X提取为除第一列之外的所有列，并将Y提取为第一列。

非常感谢您的帮助。

这是怎么回事

df=pd.read_csv（'index.txt'，sep='\\t'，engine='python'）.dropna（）

？我已经用以下更改进行了更新：df=pd.read_csv（'index.txt'，sep='\\t'，engine='python'）ab=df.to_csv（'index.csv'，sep=“，”，index=None'）现在输出包含所有文本数据的csv文件（逗号分隔）在单列中，其余列都是空白列

from urllib.request import urlretrieve
import pandas as pd
url = 'https://newonlinecourses.science.psu.edu/stat501/sites/onlinecourses.science.psu.edu.stat501/files/data/leukemia_remission/index.txt'
urlretrieve(url, 'index.txt')

df = pd.read_csv('index.txt', sep='\t',encoding='utf-16')
Y = df[['REMISS']]
X = df.drop(['REMISS'],axis=1)