Python 支持向量机的字符串到单词频率

Python 支持向量机的字符串到单词频率,python,python-3.x,svm,Python,Python 3.x,Svm,我正在研究支持向量机,我正在使用字符串,我想用滑动窗口将其分解成更小的“单词”。然后我想将每个“单词”的频率收集到一个嵌套列表中 我在一个名为final_samps的元组列表中有大约6000个样本,其中每个元组如下所示: ('Pkinase', 'NVLVCIAVCMVRKLRRPCNYLLVSLALSDLCVALLVMPMALLYEVLEKWNFGPLLCDIWVSFDVLCCTASILNLCAISVDRYLAITKPLEYGVKRTPRRMMLCVGIVWLAAACISLPPLLILGNEH

我正在研究支持向量机,我正在使用字符串,我想用滑动窗口将其分解成更小的“单词”。然后我想将每个“单词”的频率收集到一个嵌套列表中

我在一个名为
final_samps
的元组列表中有大约6000个样本,其中每个元组如下所示:

('Pkinase', 'NVLVCIAVCMVRKLRRPCNYLLVSLALSDLCVALLVMPMALLYEVLEKWNFGPLLCDIWVSFDVLCCTASILNLCAISVDRYLAITKPLEYGVKRTPRRMMLCVGIVWLAAACISLPPLLILGNEHEDEKGQPICTVCQNFAYQIYATLGSFYIPLSVMLFVYYQIFRAARRIVLEEKRAQTHLQQALNGTGSPSAPQAPPLGHTELASSGNGQRHSSVGNTSLTYSTCGGLSSGGGALAGHGSGGGVSGSTGLLGSPHHKKLRFQLAKEKKASTTLGIIMSAFTVCWLPFFILALIRPFETMHVPASLSSLFLWLGYANSLLNPIIY')
['NVLVCI', 'VLVCIA', 'LVCIAV', 'VCIAVC', 'CIAVCM', 'IAVCMV', 'AVCMVR', 'VCMVRK', 'CMVRKL', 'MVRKLR', 'VRKLRR', 'RKLRRP', 'KLRRPC', 'LRRPCN', 'RRPCNY', 'RPCNYL', 'PCNYLL', 'CNYLLV', 'NYLLVS', 'YLLVSL', 'LLVSLA', 'LVSLAL', 'VSLALS', 'SLALSD', 'LALSDL', 'ALSDLC', 'LSDLCV', 'SDLCVA', 'DLCVAL', 'LCVALL', 'CVALLV', 'VALLVM', 'ALLVMP', 'LLVMPM', 'LVMPMA', 'VMPMAL', 'MPMALL', 'PMALLY', 'MALLYE', 'ALLYEV', 'LLYEVL', 'LYEVLE', 'YEVLEK', 'EVLEKW', 'VLEKWN', 'LEKWNF', 'EKWNFG', 'KWNFGP', 'WNFGPL', 'NFGPLL', 'FGPLLC', 'GPLLCD', 'PLLCDI', 'LLCDIW', 'LCDIWV', 'CDIWVS', 'DIWVSF', 'IWVSFD', 'WVSFDV', 'VSFDVL', 'SFDVLC', 'FDVLCC', 'DVLCCT', 'VLCCTA', 'LCCTAS', 'CCTASI', 'CTASIL', 'TASILN', 'ASILNL', 'SILNLC', 'ILNLCA', 'LNLCAI', 'NLCAIS', 'LCAISV', 'CAISVD', 'AISVDR', 'ISVDRY', 'SVDRYL', 'VDRYLA', 'DRYLAI', 'RYLAIT', 'YLAITK', 'LAITKP', 'AITKPL', 'ITKPLE', 'TKPLEY', 'KPLEYG', 'PLEYGV', 'LEYGVK', 'EYGVKR', 'YGVKRT', 'GVKRTP', 'VKRTPR', 'KRTPRR', 'RTPRRM', 'TPRRMM', 'PRRMML', 'RRMMLC', 'RMMLCV', 'MMLCVG', 'MLCVGI', 'LCVGIV', 'CVGIVW', 'VGIVWL', 'GIVWLA', 'IVWLAA', 'VWLAAA', 'WLAAAC', 'LAAACI', 'AAACIS', 'AACISL', 'ACISLP', 'CISLPP', 'ISLPPL', 'SLPPLL', 'LPPLLI', 'PPLLIL', 'PLLILG', 'LLILGN', 'LILGNE', 'ILGNEH', 'LGNEHE', 'GNEHED', 'NEHEDE', 'EHEDEK', 'HEDEKG', 'EDEKGQ', 'DEKGQP', 'EKGQPI', 'KGQPIC', 'GQPICT', 'QPICTV', 'PICTVC', 'ICTVCQ', 'CTVCQN', 'TVCQNF', 'VCQNFA', 'CQNFAY', 'QNFAYQ', 'NFAYQI', 'FAYQIY', 'AYQIYA', 'YQIYAT', 'QIYATL', 'IYATLG', 'YATLGS', 'ATLGSF', 'TLGSFY', 'LGSFYI', 'GSFYIP', 'SFYIPL', 'FYIPLS', 'YIPLSV', 'IPLSVM', 'PLSVML', 'LSVMLF', 'SVMLFV', 'VMLFVY', 'MLFVYY', 'LFVYYQ', 'FVYYQI', 'VYYQIF', 'YYQIFR', 'YQIFRA', 'QIFRAA', 'IFRAAR', 'FRAARR', 'RAARRI', 'AARRIV', 'ARRIVL', 'RRIVLE', 'RIVLEE', 'IVLEEK', 'VLEEKR', 'LEEKRA', 'EEKRAQ', 'EKRAQT', 'KRAQTH', 'RAQTHL', 'AQTHLQ', 'QTHLQQ', 'THLQQA', 'HLQQAL', 'LQQALN', 'QQALNG', 'QALNGT', 'ALNGTG', 'LNGTGS', 'NGTGSP', 'GTGSPS', 'TGSPSA', 'GSPSAP', 'SPSAPQ', 'PSAPQA', 'SAPQAP', 'APQAPP', 'PQAPPL', 'QAPPLG', 'APPLGH', 'PPLGHT', 'PLGHTE', 'LGHTEL', 'GHTELA', 'HTELAS', 'TELASS', 'ELASSG', 'LASSGN', 'ASSGNG', 'SSGNGQ', 'SGNGQR', 'GNGQRH', 'NGQRHS', 'GQRHSS', 'QRHSSV', 'RHSSVG', 'HSSVGN', 'SSVGNT', 'SVGNTS', 'VGNTSL', 'GNTSLT', 'NTSLTY', 'TSLTYS', 'SLTYST', 'LTYSTC', 'TYSTCG', 'YSTCGG', 'STCGGL', 'TCGGLS', 'CGGLSS', 'GGLSSG', 'GLSSGG', 'LSSGGG', 'SSGGGA', 'SGGGAL', 'GGGALA', 'GGALAG', 'GALAGH', 'ALAGHG', 'LAGHGS', 'AGHGSG', 'GHGSGG', 'HGSGGG']
我从所有样本中收集了所有“单词”的列表,并将其放入名为
word\u set
的列表中,如下所示:

('Pkinase', 'NVLVCIAVCMVRKLRRPCNYLLVSLALSDLCVALLVMPMALLYEVLEKWNFGPLLCDIWVSFDVLCCTASILNLCAISVDRYLAITKPLEYGVKRTPRRMMLCVGIVWLAAACISLPPLLILGNEHEDEKGQPICTVCQNFAYQIYATLGSFYIPLSVMLFVYYQIFRAARRIVLEEKRAQTHLQQALNGTGSPSAPQAPPLGHTELASSGNGQRHSSVGNTSLTYSTCGGLSSGGGALAGHGSGGGVSGSTGLLGSPHHKKLRFQLAKEKKASTTLGIIMSAFTVCWLPFFILALIRPFETMHVPASLSSLFLWLGYANSLLNPIIY')
['NVLVCI', 'VLVCIA', 'LVCIAV', 'VCIAVC', 'CIAVCM', 'IAVCMV', 'AVCMVR', 'VCMVRK', 'CMVRKL', 'MVRKLR', 'VRKLRR', 'RKLRRP', 'KLRRPC', 'LRRPCN', 'RRPCNY', 'RPCNYL', 'PCNYLL', 'CNYLLV', 'NYLLVS', 'YLLVSL', 'LLVSLA', 'LVSLAL', 'VSLALS', 'SLALSD', 'LALSDL', 'ALSDLC', 'LSDLCV', 'SDLCVA', 'DLCVAL', 'LCVALL', 'CVALLV', 'VALLVM', 'ALLVMP', 'LLVMPM', 'LVMPMA', 'VMPMAL', 'MPMALL', 'PMALLY', 'MALLYE', 'ALLYEV', 'LLYEVL', 'LYEVLE', 'YEVLEK', 'EVLEKW', 'VLEKWN', 'LEKWNF', 'EKWNFG', 'KWNFGP', 'WNFGPL', 'NFGPLL', 'FGPLLC', 'GPLLCD', 'PLLCDI', 'LLCDIW', 'LCDIWV', 'CDIWVS', 'DIWVSF', 'IWVSFD', 'WVSFDV', 'VSFDVL', 'SFDVLC', 'FDVLCC', 'DVLCCT', 'VLCCTA', 'LCCTAS', 'CCTASI', 'CTASIL', 'TASILN', 'ASILNL', 'SILNLC', 'ILNLCA', 'LNLCAI', 'NLCAIS', 'LCAISV', 'CAISVD', 'AISVDR', 'ISVDRY', 'SVDRYL', 'VDRYLA', 'DRYLAI', 'RYLAIT', 'YLAITK', 'LAITKP', 'AITKPL', 'ITKPLE', 'TKPLEY', 'KPLEYG', 'PLEYGV', 'LEYGVK', 'EYGVKR', 'YGVKRT', 'GVKRTP', 'VKRTPR', 'KRTPRR', 'RTPRRM', 'TPRRMM', 'PRRMML', 'RRMMLC', 'RMMLCV', 'MMLCVG', 'MLCVGI', 'LCVGIV', 'CVGIVW', 'VGIVWL', 'GIVWLA', 'IVWLAA', 'VWLAAA', 'WLAAAC', 'LAAACI', 'AAACIS', 'AACISL', 'ACISLP', 'CISLPP', 'ISLPPL', 'SLPPLL', 'LPPLLI', 'PPLLIL', 'PLLILG', 'LLILGN', 'LILGNE', 'ILGNEH', 'LGNEHE', 'GNEHED', 'NEHEDE', 'EHEDEK', 'HEDEKG', 'EDEKGQ', 'DEKGQP', 'EKGQPI', 'KGQPIC', 'GQPICT', 'QPICTV', 'PICTVC', 'ICTVCQ', 'CTVCQN', 'TVCQNF', 'VCQNFA', 'CQNFAY', 'QNFAYQ', 'NFAYQI', 'FAYQIY', 'AYQIYA', 'YQIYAT', 'QIYATL', 'IYATLG', 'YATLGS', 'ATLGSF', 'TLGSFY', 'LGSFYI', 'GSFYIP', 'SFYIPL', 'FYIPLS', 'YIPLSV', 'IPLSVM', 'PLSVML', 'LSVMLF', 'SVMLFV', 'VMLFVY', 'MLFVYY', 'LFVYYQ', 'FVYYQI', 'VYYQIF', 'YYQIFR', 'YQIFRA', 'QIFRAA', 'IFRAAR', 'FRAARR', 'RAARRI', 'AARRIV', 'ARRIVL', 'RRIVLE', 'RIVLEE', 'IVLEEK', 'VLEEKR', 'LEEKRA', 'EEKRAQ', 'EKRAQT', 'KRAQTH', 'RAQTHL', 'AQTHLQ', 'QTHLQQ', 'THLQQA', 'HLQQAL', 'LQQALN', 'QQALNG', 'QALNGT', 'ALNGTG', 'LNGTGS', 'NGTGSP', 'GTGSPS', 'TGSPSA', 'GSPSAP', 'SPSAPQ', 'PSAPQA', 'SAPQAP', 'APQAPP', 'PQAPPL', 'QAPPLG', 'APPLGH', 'PPLGHT', 'PLGHTE', 'LGHTEL', 'GHTELA', 'HTELAS', 'TELASS', 'ELASSG', 'LASSGN', 'ASSGNG', 'SSGNGQ', 'SGNGQR', 'GNGQRH', 'NGQRHS', 'GQRHSS', 'QRHSSV', 'RHSSVG', 'HSSVGN', 'SSVGNT', 'SVGNTS', 'VGNTSL', 'GNTSLT', 'NTSLTY', 'TSLTYS', 'SLTYST', 'LTYSTC', 'TYSTCG', 'YSTCGG', 'STCGGL', 'TCGGLS', 'CGGLSS', 'GGLSSG', 'GLSSGG', 'LSSGGG', 'SSGGGA', 'SGGGAL', 'GGGALA', 'GGALAG', 'GALAGH', 'ALAGHG', 'LAGHGS', 'AGHGSG', 'GHGSGG', 'HGSGGG']
我现在坚持的部分是收集这些单词的频率。我试图通过循环遍历每个示例来实现这一点,创建一个包含该示例中所有单词的字典,然后将值附加到列表中。我不确定我的代码中的问题在哪里,但
freqs
字典中总是充满了所有0

代码:


如果我理解正确的话,你想数一数你的话的价值吗? 如果您尝试此选项:

import pandas as pd

a = ['NVLVCI', 'VLVCIA', 'LVCIAV', 'VCIAVC', 'CIAVCM', 'IAVCMV', 'AVCMVR', 'VCMVRK', 'CMVRKL', 'MVRKLR', 'VRKLRR', 'RKLRRP', 'KLRRPC', 'LRRPCN', 'RRPCNY', 'RPCNYL', 'PCNYLL', 'CNYLLV', 'NYLLVS', 'YLLVSL', 'LLVSLA', 'LVSLAL', 'VSLALS', 'SLALSD', 'LALSDL', 'ALSDLC', 'LSDLCV', 'SDLCVA', 'DLCVAL', 'LCVALL', 'CVALLV', 'VALLVM', 'ALLVMP', 'LLVMPM', 'LVMPMA', 'VMPMAL', 'MPMALL', 'PMALLY', 'MALLYE', 'ALLYEV', 'LLYEVL', 'LYEVLE', 'YEVLEK', 'EVLEKW', 'VLEKWN', 'LEKWNF', 'EKWNFG', 'KWNFGP', 'WNFGPL', 'NFGPLL', 'FGPLLC', 'GPLLCD', 'PLLCDI', 'LLCDIW', 'LCDIWV', 'CDIWVS', 'DIWVSF', 'IWVSFD', 'WVSFDV', 'VSFDVL', 'SFDVLC', 'FDVLCC', 'DVLCCT', 'VLCCTA', 'LCCTAS', 'CCTASI', 'CTASIL', 'TASILN', 'ASILNL', 'SILNLC', 'ILNLCA', 'LNLCAI', 'NLCAIS', 'LCAISV', 'CAISVD', 'AISVDR', 'ISVDRY', 'SVDRYL', 'VDRYLA', 'DRYLAI', 'RYLAIT', 'YLAITK', 'LAITKP', 'AITKPL', 'ITKPLE', 'TKPLEY', 'KPLEYG', 'PLEYGV', 'LEYGVK', 'EYGVKR', 'YGVKRT', 'GVKRTP', 'VKRTPR', 'KRTPRR', 'RTPRRM', 'TPRRMM', 'PRRMML', 'RRMMLC', 'RMMLCV', 'MMLCVG', 'MLCVGI', 'LCVGIV', 'CVGIVW', 'VGIVWL', 'GIVWLA', 'IVWLAA', 'VWLAAA', 'WLAAAC', 'LAAACI', 'AAACIS', 'AACISL', 'ACISLP', 'CISLPP', 'ISLPPL', 'SLPPLL', 'LPPLLI', 'PPLLIL', 'PLLILG', 'LLILGN', 'LILGNE', 'ILGNEH', 'LGNEHE', 'GNEHED', 'NEHEDE', 'EHEDEK', 'HEDEKG', 'EDEKGQ', 'DEKGQP', 'EKGQPI', 'KGQPIC', 'GQPICT', 'QPICTV', 'PICTVC', 'ICTVCQ', 'CTVCQN', 'TVCQNF', 'VCQNFA', 'CQNFAY', 'QNFAYQ', 'NFAYQI', 'FAYQIY', 'AYQIYA', 'YQIYAT', 'QIYATL', 'IYATLG', 'YATLGS', 'ATLGSF', 'TLGSFY', 'LGSFYI', 'GSFYIP', 'SFYIPL', 'FYIPLS', 'YIPLSV', 'IPLSVM', 'PLSVML', 'LSVMLF', 'SVMLFV', 'VMLFVY', 'MLFVYY', 'LFVYYQ', 'FVYYQI', 'VYYQIF', 'YYQIFR', 'YQIFRA', 'QIFRAA', 'IFRAAR', 'FRAARR', 'RAARRI', 'AARRIV', 'ARRIVL', 'RRIVLE', 'RIVLEE', 'IVLEEK', 'VLEEKR', 'LEEKRA', 'EEKRAQ', 'EKRAQT', 'KRAQTH', 'RAQTHL', 'AQTHLQ', 'QTHLQQ', 'THLQQA', 'HLQQAL', 'LQQALN', 'QQALNG', 'QALNGT', 'ALNGTG', 'LNGTGS', 'NGTGSP', 'GTGSPS', 'TGSPSA', 'GSPSAP', 'SPSAPQ', 'PSAPQA', 'SAPQAP', 'APQAPP', 'PQAPPL', 'QAPPLG', 'APPLGH', 'PPLGHT', 'PLGHTE', 'LGHTEL', 'GHTELA', 'HTELAS', 'TELASS', 'ELASSG', 'LASSGN', 'ASSGNG', 'SSGNGQ', 'SGNGQR', 'GNGQRH', 'NGQRHS', 'GQRHSS', 'QRHSSV', 'RHSSVG', 'HSSVGN', 'SSVGNT', 'SVGNTS', 'VGNTSL', 'GNTSLT', 'NTSLTY', 'TSLTYS', 'SLTYST', 'LTYSTC', 'TYSTCG', 'YSTCGG', 'STCGGL', 'TCGGLS', 'CGGLSS', 'GGLSSG', 'GLSSGG', 'LSSGGG', 'SSGGGA', 'SGGGAL', 'GGGALA', 'GGALAG', 'GALAGH', 'ALAGHG', 'LAGHGS', 'AGHGSG', 'GHGSGG', 'HGSGGG']
a = pd.DataFrame(a)
bla = a[0].value_counts().sort_values()

它会帮你的。但是我只得到每个值的“1”,因为每个单词在列表中只有一次。

是的,我正在尝试计算每个单词的出现次数。每个单词的值应为1或0。我会试试这个方法,谢谢!现在让我看看它是否有效。