Python 如何从杂乱的字符串中提取数据帧?

Python 如何从杂乱的字符串中提取数据帧?,python,pandas,dataframe,Python,Pandas,Dataframe,我有一个数据集,它在发布之前已经被修改过了。然而,其附件代码尚未修订,现在面临这一错误。 代码需要一个数据框来解释255个家庭的功能,尽管该项目只是一个混乱的字符串,没有精确的分隔符来转换它 我在此中显示了错误、新数据集中项目的类型以及字符串的内容。(突出显示的是每套列前面都有“\n\n”) 此外,我想到的是提取数据帧,但没有起作用: string=mdi.metadata.homes['home'] home2=string.split("\n\n")[0] from io

我有一个数据集,它在发布之前已经被修改过了。然而,其附件代码尚未修订,现在面临这一错误。 代码需要一个数据框来解释255个家庭的功能,尽管该项目只是一个混乱的字符串,没有精确的分隔符来转换它

我在此中显示了错误、新数据集中项目的类型以及字符串的内容。(突出显示的是每套列前面都有“\n\n”

此外,我想到的是提取数据帧,但没有起作用:

string=mdi.metadata.homes['home']
home2=string.split("\n\n")[0]
from io import StringIO
StringData = StringIO(home2)
df = pd.read_csv(StringData, sep ="\t")
这只是字符串首字母中前4列的前4行:


我相信有更好的方法,但我使用这个技巧从格式不好的问题中获取数据帧

打印字符串(要让
打印
处理返回字符之类的事情,
'\n'
),然后选择全部并复制它。然后使用:

df = pd.read_clipboard("\s\s+")

有时我不得不手动调整几个列名之间的间距,以使其正常工作,但这是不合理的有效。

非常感谢,它不知怎么起作用了。但我发现我的API在数据集的最后一次修订中遇到了主要问题;因为我不知道如何处理API文件,所以作为一个新问题,是否适合上传所有API文件?(不合适吗?)在我看来,这是一个完全不同的问题,你可以单独发布。只需记住在这篇文章中要具体和详细。祝你好运
df = pd.read_clipboard("\s\s+")