Pytorch 如何为Pytork中的BERT培训师准备培训数据集？_Pytorch_Bert Language Model_Huggingface Transformers

Pytorch 如何为Pytork中的BERT培训师准备培训数据集？

pytorch

Pytorch 如何为Pytork中的BERT培训师准备培训数据集？,pytorch,bert-language-model,huggingface-transformers,Pytorch,Bert Language Model,Huggingface Transformers,该任务是使用用于序列分类的BERT预训练模型检测文本序列中是否存在血液标签 class-BloodDataset（数据集）： “”“模拟血液数据集。”“” def u uu init uuuuu（self，arff_文件）： """ Args： arff_文件（字符串）：带注释的arff文件的路径。 """ self.index、self.contents、self.labels=read\u arff（arff\u文件） self.labels=torch.as_张量（self.labels）

该任务是使用用于序列分类的BERT预训练模型检测文本序列中是否存在血液标签

class-BloodDataset（数据集）：
“”“模拟血液数据集。”“”
def u uu init uuuuu（self，arff_文件）：
"""
Args：
arff_文件（字符串）：带注释的arff文件的路径。
"""
self.index、self.contents、self.labels=read\u arff（arff\u文件）
self.labels=torch.as_张量（self.labels）
self.inputs=编码（self.contents）
self.input\u id=（self.input['input\u id']））
self.attention\u mask=（self.inputs['attention\u mask']）
定义（自我）：
返回长度（自索引）
def uu getitem uu（self，idx）：
如果火炬是张量（idx）：
idx=idx.tolist（）
如果idx在自索引中：
样本索引=自索引索引（idx）
样本={'index'：idx，
“内容”：self.contents[示例索引]，
“标签”：self.labels[示例索引]，
'input_ID'：self.input_ID[示例索引]，
“注意遮罩”：自我注意遮罩[示例索引]
}
回样
其他：
return“未找到样本！”

Huggingface的教程提出了一个培训师解决方案：

model=BertForSequenceClassification.from\u pretrained（model\u type）
培训参数=培训参数(
输出目录='./结果'，#输出目录
logging_dir='./logs'，#用于存储日志的目录
)
教练(
#实例化的