String 使用split()在python数据帧中拆分整列中的值

String 使用split()在python数据帧中拆分整列中的值,string,csv,pandas,split,String,Csv,Pandas,Split,我正在尝试清理包含垃圾的url列表,如图所示 /gradeoffice/index.aspx( /gradeoffice/index.aspx- /gradeoffice/index.aspxjavascript$ /gradeoffice/index.aspx~ 我有一个csv文件,其中有超过190k条不同url的记录。我试图将csv加载到pandas数据框中,并使用该语句将整个url列放入一个列表中 str = df['csuristem'] 它清楚地给了我列中的所有值。当我使用下面的代码

我正在尝试清理包含垃圾的url列表,如图所示

  • /gradeoffice/index.aspx(
  • /gradeoffice/index.aspx-
  • /gradeoffice/index.aspxjavascript$
  • /gradeoffice/index.aspx~
  • 我有一个csv文件,其中有超过190k条不同url的记录。我试图将csv加载到pandas数据框中,并使用该语句将整个url列放入一个列表中

    str = df['csuristem']
    

    它清楚地给了我列中的所有值。当我使用下面的代码时,它只打印40K的记录,它开始在中间的某个地方。我不知道哪里出错了。程序运行得很好,但只显示了部分结果。任何帮助都会非常感激。

    import pandas
    table = pandas.read_csv("SS3.csv", dtype=object)
    df = pandas.DataFrame(table)
    str = df['csuristem']
    for s in str:
        s = s.split(".")[0]
        print s
    
    我希望得到这样的输出

  • /办公室/索引
  • /办公室/索引
  • /办公室/索引
  • /办公室/索引
  • 谢谢,,
    Santhosh。

    您需要执行以下操作,因此在列上调用
    .str.split
    ,然后调用
    .str[0]
    以访问感兴趣的拆分字符串的第一部分:

    In [6]:
    
    df['csuristem'].str.split('.').str[0]
    Out[6]:
    0    /gradoffice/index
    1    /gradoffice/index
    2    /gradoffice/index
    3    /gradoffice/index
    Name: csuristem, dtype: object