Pytorch 如何为Pytork中的BERT培训师准备培训数据集?

Pytorch 如何为Pytork中的BERT培训师准备培训数据集?,pytorch,bert-language-model,huggingface-transformers,Pytorch,Bert Language Model,Huggingface Transformers,该任务是使用用于序列分类的BERT预训练模型检测文本序列中是否存在血液标签 class-BloodDataset(数据集): “”“模拟血液数据集。”“” def u uu init uuuuu(self,arff_文件): """ Args: arff_文件(字符串):带注释的arff文件的路径。 """ self.index、self.contents、self.labels=read\u arff(arff\u文件) self.labels=torch.as_张量(self.labels)

该任务是使用用于序列分类的BERT预训练模型检测文本序列中是否存在血液标签

class-BloodDataset(数据集):
“”“模拟血液数据集。”“”
def u uu init uuuuu(self,arff_文件):
"""
Args:
arff_文件(字符串):带注释的arff文件的路径。
"""
self.index、self.contents、self.labels=read\u arff(arff\u文件)
self.labels=torch.as_张量(self.labels)
self.inputs=编码(self.contents)
self.input\u id=(self.input['input\u id']))
self.attention\u mask=(self.inputs['attention\u mask'])
定义(自我):
返回长度(自索引)
def uu getitem uu(self,idx):
如果火炬是张量(idx):
idx=idx.tolist()
如果idx在自索引中:
样本索引=自索引索引(idx)
样本={'index':idx,
“内容”:self.contents[示例索引],
“标签”:self.labels[示例索引],
'input_ID':self.input_ID[示例索引],
“注意遮罩”:自我注意遮罩[示例索引]
}
回样
其他:
return“未找到样本!”
Huggingface的教程提出了一个培训师解决方案:

model=BertForSequenceClassification.from\u pretrained(model\u type)
培训参数=培训参数(
输出目录='./结果',#输出目录
logging_dir='./logs',#用于存储日志的目录
)
教练(
#实例化的