为什么要进行字符串比较==&引用；不'；不行？Python 3.6_Python_Html_Bs4

为什么要进行字符串比较==&引用；不'；不行？Python 3.6

python html

为什么要进行字符串比较==&引用；不'；不行？Python 3.6,python,html,bs4,Python,Html,Bs4,我正在尝试编写一个函数，该函数获取零件号，然后从此网站检索其产品网页链接：我正在使用bs4模块解析网页。进行零件号搜索时，url遵循此结构： “+part_number+”&artnr search=find+now#searchresults” 此行收集“td”标签中的所有零件号 all_artnr = soup.find_all('td', attrs={'class': 'artnr'}) 搜索零件号时有三种情况：（1）。零件号不存在（2）。零件号存在且不是其他零件号的子字符

我正在尝试编写一个函数，该函数获取零件号，然后从此网站检索其产品网页链接：

我正在使用bs4模块解析网页。进行零件号搜索时，url遵循此结构：

“+part_number+”&artnr search=find+now#searchresults”

此行收集“td”标签中的所有零件号

all_artnr = soup.find_all('td', attrs={'class': 'artnr'})

搜索零件号时有三种情况：

（1）。零件号不存在

（2）。零件号存在且不是其他零件号的子字符串

（3）。零件号存在，它是其他零件号的子字符串

场景（1）和（2）很容易处理。在场景3中，网站返回包含输入零件号作为子字符串的零件号的所有产品网页

我正在考虑将td标签的文本与输入的零件号进行比较。当它们匹配时，产品网页包含在该td标签中

下面是我的代码及其输出。最后两个输出显示匹配，但比较返回false。请帮助我了解这里发生了什么。多谢各位

import bs4
import requests


def get_pwp(pn):
    home_page = "http://www.assmann-wsw.com/"
    #url_p1_de = "http://www.assmann-wsw.com/wo/en/artikelfinder/?artnr="
    url_p1_us = "http://www.assmann-wsw.com/us/en/artikelfinder/?artnr="
    url_p2 = "&artnr-search=find+now#searchresults"

    search_url = url_p1_us + str(pn) + url_p2
    src = requests.get(search_url).content

    soup = bs4.BeautifulSoup(src, 'lxml')

    # product webpage
    pwp = ''
    all_artnr = soup.find_all('td', attrs={'class': 'artnr'})

    # Part number doesn't exist
    if len(all_artnr) == 0:
        pwp = '#NA'

    # Part number exists and it is not a substring of other part numbers.
    elif len(all_artnr) == 2 or len(all_artnr) == 1:
        pwp = home_page + all_artnr[0].find('a')['href']

    # Part number exists and it is a substring of other part numbers.
    else:
        for artnr in all_artnr:
            print(str(artnr.text), pn)
            print(str(artnr.text) == pn)

            if str(artnr.text) == str(pn):
                pwp = home_page + artnrfind('a')['href']
                break

    return pwp

pwp = get_pwp("A-MCSP-80300")
print(pwp)



Output:

A‑MCSP‑80300‑R A-MCSP-80300
False
A‑MCSP‑80300‑R A-MCSP-80300
False
A‑MCSP‑80300/B A-MCSP-80300
False
A‑MCSP‑80300/B A-MCSP-80300
False
A‑MCSP‑80300/G A-MCSP-80300
False
A‑MCSP‑80300/G A-MCSP-80300
False
A‑MCSP‑80300/R A-MCSP-80300
False
A‑MCSP‑80300/R A-MCSP-80300
False
A‑MCSP‑80300/Y A-MCSP-80300
False
A‑MCSP‑80300/Y A-MCSP-80300
False
A‑MCSP‑80300 A-MCSP-80300
False
A‑MCSP‑80300 A-MCSP-80300
False


Process finished with exit code 0

这是因为字符串不一样，它们只是在打印时看起来是一样的

第一个包含“不间断连字符”，表示为unicode字符

'\u2011'

。第二个值包含ASCII短字符（“连字符-减号”）字符，

'\u002D'

>>> import unicodedata
>>> s1 = 'A‑MCSP‑80300'
>>> s2 = 'A-MCSP-80300'

>>> s1 == s2
False

>>> s1.encode('utf8')
b'A\xe2\x80\x91MCSP\xe2\x80\x9180300'

>>> s2.encode('utf8')
b'A-MCSP-80300'

>>> unicodedata.name(s1[1])
'NON-BREAKING HYPHEN'
>>> unicodedata.name(s2[1])
'HYPHEN-MINUS'

在比较之前，可以将一个替换为另一个：

>>> s1.replace('\u2011', '-') == s2.replace('\u2011', '-')
True

这是因为字符串不一样，它们只是在打印时看起来是一样的

第一个包含“不间断连字符”，表示为unicode字符

'\u2011'

。第二个值包含ASCII短字符（“连字符-减号”）字符，

'\u002D'

>>> import unicodedata
>>> s1 = 'A‑MCSP‑80300'
>>> s2 = 'A-MCSP-80300'

>>> s1 == s2
False

>>> s1.encode('utf8')
b'A\xe2\x80\x91MCSP\xe2\x80\x9180300'

>>> s2.encode('utf8')
b'A-MCSP-80300'

>>> unicodedata.name(s1[1])
'NON-BREAKING HYPHEN'
>>> unicodedata.name(s2[1])
'HYPHEN-MINUS'

在比较之前，可以将一个替换为另一个：

>>> s1.replace('\u2011', '-') == s2.replace('\u2011', '-')
True

谢谢你，谢谢你。