在Python中读/写txt文件_Python_Web Scraping_Txt_Write

在Python中读/写txt文件

python web-scraping

在Python中读/写txt文件,python,web-scraping,txt,write,Python,Web Scraping,Txt,Write,你好，我正在尝试抓取信息来构建URL。我的代码如下所示： import requests import json URL = "https://api.hostname.nl/v7/recommend/series?limit=200&offset=0" page = requests.get(URL) data = json.loads(page.text) for serie in data: serie_id = serie["id&q

你好，我正在尝试抓取信息来构建URL。我的代码如下所示：

import requests
import json


URL = "https://api.hostname.nl/v7/recommend/series?limit=200&offset=0"
page = requests.get(URL)
data = json.loads(page.text)

for serie in data:
    serie_id = serie["id"]

    with open('hostname_serieurl.txt', 'a+') as serieUrl:
        serieUrl.write("https://app.hostname.nl/series/" + serie_id + '\n')


with open("hostname_serieurl.txt", "r+") as f1:
    lines = f1.readlines()

URL_serie = lines
page_serie = requests.get(URL_serie)
data_serie = json.loads(page_serie.text)


for season_id in data_serie['seasons']:
    seizoen_id = season_id['id']

    with open('hostname_seizoenurl.txt', 'a+') as seizoenUrl:
        seizoenUrl.write("https://api.hostname.nl/v7/series/" + serie_id + "/episodes?seasonId=" + seizoen_id + "&limit=10&offset=0" + '\n')

https://app.hostname.nl/series/blablalblalbla 
https://app.hostname.nl/series/blablalblalbla 
https://app.hostname.nl/series/blablalblalbla 
https://app.hostname.nl/series/blablalblalbla 
https://app.hostname.nl/series/blablalblalbla 
https://app.hostname.nl/series/blablalblalbla

第一部分：

URL = "https://api.hostname.nl/v7/recommend/series?limit=200&offset=0"
page = requests.get(URL)
data = json.loads(page.text)

for serie in data:
    serie_id = serie["id"]

    with open('hostname_serieurl.txt', 'a+') as serieUrl:
        serieUrl.write("https://app.hostname.nl/series/" + serie_id + '\n')

给我一个txt，如下所示：

import requests
import json


URL = "https://api.hostname.nl/v7/recommend/series?limit=200&offset=0"
page = requests.get(URL)
data = json.loads(page.text)

for serie in data:
    serie_id = serie["id"]

    with open('hostname_serieurl.txt', 'a+') as serieUrl:
        serieUrl.write("https://app.hostname.nl/series/" + serie_id + '\n')


with open("hostname_serieurl.txt", "r+") as f1:
    lines = f1.readlines()

URL_serie = lines
page_serie = requests.get(URL_serie)
data_serie = json.loads(page_serie.text)


for season_id in data_serie['seasons']:
    seizoen_id = season_id['id']

    with open('hostname_seizoenurl.txt', 'a+') as seizoenUrl:
        seizoenUrl.write("https://api.hostname.nl/v7/series/" + serie_id + "/episodes?seasonId=" + seizoen_id + "&limit=10&offset=0" + '\n')

https://app.hostname.nl/series/blablalblalbla 
https://app.hostname.nl/series/blablalblalbla 
https://app.hostname.nl/series/blablalblalbla 
https://app.hostname.nl/series/blablalblalbla 
https://app.hostname.nl/series/blablalblalbla 
https://app.hostname.nl/series/blablalblalbla

这是正确的。现在，当我尝试将这些url作为新的基本url加载时，python将其视为：

https://app.hostname.nl/series/blablalblalbla\\n

我想这会使脚本的第二部分出现故障。你知道我哪里出错了，或者怎么解决吗？

你的循环正在运行。

但是你的URL=”https://api.hostname.nl/v7/recommend/series?limit=200&offset=0“不是json文件。

问题出在\\n crlf上吗？在这种情况下，为什么不在收到它们时将其剥离？不，如果我从代码中删除\n，它会将所有内容背靠背打印，而不是一行。对不起，我不理解您的问题。当您说“当我尝试将这些url加载为新的基本url时，python将它们视为：…”唯一的区别似乎是标签上的//n。你想要什么？在txt文件中，每一行都有一个不同的url。就像第一部分中的URL=“”，但不是第一个URL，而是txt文件中的第一行。确实如此，但我删除了主机名。我猜问题出在第二部分，新的URL必须从txt导入。