在列表中下载之前排除重复行(Python3)
我有一个代码,可以将信息加载到web页面中的列表U_INSERT中。 该网页包含一个表,我使用pandas从表中提取数据 例如,3个包含字符串的url地址:在列表中下载之前排除重复行(Python3),python,python-3.x,Python,Python 3.x,我有一个代码,可以将信息加载到web页面中的列表U_INSERT中。 该网页包含一个表,我使用pandas从表中提取数据 例如,3个包含字符串的url地址: url 1: [[55323600, '1234_MB] ,[55323601, '1582_MB]] url 2: [[55323602, '1245_MB] ,[55323603, '1579_MB]] url 3: [[55323602, '1245_MB] ,[55323603, '1579_MB]] 我写了这篇文章,但这不
url 1:
[[55323600, '1234_MB]
,[55323601, '1582_MB]]
url 2:
[[55323602, '1245_MB]
,[55323603, '1579_MB]]
url 3:
[[55323602, '1245_MB]
,[55323603, '1579_MB]]
我写了这篇文章,但这不是排除重复行的最佳方法:
RESULTU = [] #contains a list of url-addresses
U_INSERT = [] #data from web pages
for ind,val in enumerate(RESULTU):
df = pd.read_html(val,header=0)[0]
df = df.as_matrix().tolist()
for i in df:
U_INSERT.append(i)
print (list(set(U_INSERT)))
我正在寻找一种方法来检查该行以前是否加载到列表U_INSERT中,然后不要下载它并转到下一个url地址。您可能希望将
RESULTU
定义为一个集合,以确保没有重复的条目
查看有关集合的更多信息因为您的值是可散列的,并且您只想在处理之前进行检查,所以我将使用
集合
并在中使用进行检查