Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/313.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python使用另一列删除子字符串_Python_String_Pandas_Replace_Series - Fatal编程技术网

Python使用另一列删除子字符串

Python使用另一列删除子字符串,python,string,pandas,replace,series,Python,String,Pandas,Replace,Series,我试过四处搜索,但找不到一个简单的方法,所以我希望你的专业知识能帮上忙 我有一个有两列的熊猫数据框 import numpy as np import pandas as pd pd.options.display.width = 1000 testing = pd.DataFrame({'NAME':[ 'FIRST', np.nan, 'NAME2', 'NAME3', 'NAME4', 'NAME5', 'NAME6'], 'FULL_NAME':['FIRST LAS

我试过四处搜索,但找不到一个简单的方法,所以我希望你的专业知识能帮上忙

我有一个有两列的熊猫数据框

import numpy as np
import pandas as pd

pd.options.display.width = 1000
testing = pd.DataFrame({'NAME':[
    'FIRST', np.nan, 'NAME2', 'NAME3', 
    'NAME4', 'NAME5', 'NAME6'], 'FULL_NAME':['FIRST LAST', np.nan, 'FIRST LAST', 'FIRST NAME3', 'FIRST NAME4 LAST', 'ANOTHER NAME', 'LAST NAME']})
这让我

          FULL_NAME   NAME
0        FIRST LAST  FIRST
1               NaN    NaN
2        FIRST LAST  NAME2
3       FIRST NAME3  NAME3
4  FIRST NAME4 LAST  NAME4
5      ANOTHER NAME  NAME5
6         LAST NAME  NAME6
我想做的是从'NAME'列中获取值,然后从'FULL NAME'列中删除(如果有)。因此函数将返回

          FULL_NAME   NAME           NEW
0        FIRST LAST  FIRST          LAST
1               NaN    NaN           NaN
2        FIRST LAST  NAME2    FIRST LAST
3       FIRST NAME3  NAME3         FIRST
4  FIRST NAME4 LAST  NAME4    FIRST LAST
5      ANOTHER NAME  NAME5  ANOTHER NAME
6         LAST NAME  NAME6     LAST NAME
到目前为止,我已经在下面定义了一个函数,并且正在使用apply方法。不过,这在我的大数据集上运行得相当慢,我希望有一种更有效的方法来实现这一点。谢谢

def address_remove(x):
    try:
        newADDR1 = re.sub(x['NAME'], '', x[-1])
        newADDR1 = newADDR1.rstrip()
        newADDR1 = newADDR1.lstrip()
        return newADDR1
    except:
        return x[-1]

这里有一个比您当前的解决方案快很多的解决方案,但我不相信不会有更快的解决方案

In [13]: import numpy as np
         import pandas as pd
         n = 1000
         testing  = pd.DataFrame({'NAME':[
         'FIRST', np.nan, 'NAME2', 'NAME3', 
         'NAME4', 'NAME5', 'NAME6']*n, 'FULL_NAME':['FIRST LAST', np.nan, 'FIRST  LAST', 'FIRST NAME3', 'FIRST NAME4 LAST', 'ANOTHER NAME', 'LAST NAME']*n})
这是一个很长的一行,但它应该做你需要的

我能想到的快速解决方案是使用另一个答案中提到的
替换

In [37]: %timeit testing ['NEW2'] = [e.replace(k, '') for e, k in zip(testing.FULL_NAME.astype('str'), testing.NAME.astype('str'))]
100 loops, best of 3: 4.67 ms per loop
原始答复:

In [14]: %timeit testing ['NEW'] = [''.join(str(e).split(k)) for e, k in zip(testing.FULL_NAME.astype('str'), testing.NAME.astype('str'))]
100 loops, best of 3: 7.24 ms per loop
与您当前的解决方案相比:

In [16]: %timeit testing['NEW1'] = testing.apply(address_remove, axis=1)
10 loops, best of 3: 166 ms per loop

这些方法得到了与当前解决方案相同的答案

我认为您希望使用字符串所具有的replace()方法,它比使用正则表达式快几个数量级(我刚刚在IPython中快速检查):

如果在此之后需要进一步提高速度,您应该研究numpy的矢量化函数(但我认为使用替换而不是正则表达式的速度应该相当大)。

您可以使用方法和
regex
参数,然后使用
str.strip

In [605]: testing.FULL_NAME.replace(testing.NAME[testing.NAME.notnull()], '', regex = True).str.strip()
Out[605]: 
0            LAST
1             NaN
2      FIRST LAST
3           FIRST
4     FIRST  LAST
5    ANOTHER NAME
6       LAST NAME
Name: FULL_NAME, dtype: object
注意:您需要将
notnull
传递到
测试。NAME
因为没有它
NaN
值也将被替换为空字符串

基准测试比最快的@johnchase解决方案慢,但我认为它更具可读性,并且使用数据帧和系列的所有方法:

In [607]: %timeit testing['NEW'] = testing.FULL_NAME.replace(testing.NAME[testing.NAME.notnull()], '', regex = True).str.strip()
100 loops, best of 3: 4.56 ms per loop

In [661]: %timeit testing ['NEW'] = [e.replace(k, '') for e, k in zip(testing.FULL_NAME.astype('str'), testing.NAME.astype('str'))]
1000 loops, best of 3: 450 µs per loop

伟大的我试图想出第二个解决方案,但第三个更好!你介意告诉我“zip”命令在做什么吗?很高兴它起作用了
zip
获取多个iterables并从原始iterables返回聚合的迭代器。在更多层面上,它允许您同时循环通过两个或多个iterables。纯熊猫溶液。干得好。当然更容易阅读,即使它不是更快。@johnchase是的,对不起。为了减少在ConsoleEYP中的输入,我一开始也做了同样的事情。另外,测试的数据帧大小是多少?运行您的代码时,我得到了非常不同的计时结果,尽管我想知道这是否是我正在做的事情…@johnchase是的,您的解决方案几乎快了10倍。我有一台功能更强大的电脑:)
In [607]: %timeit testing['NEW'] = testing.FULL_NAME.replace(testing.NAME[testing.NAME.notnull()], '', regex = True).str.strip()
100 loops, best of 3: 4.56 ms per loop

In [661]: %timeit testing ['NEW'] = [e.replace(k, '') for e, k in zip(testing.FULL_NAME.astype('str'), testing.NAME.astype('str'))]
1000 loops, best of 3: 450 µs per loop