Regex 提取事件描述正则表达式或其他
我正试图获得CSV或本页中的每个车间描述。我怎样才能用Regex或任何其他技术废弃它Regex 提取事件描述正则表达式或其他,regex,web-scraping,Regex,Web Scraping,我正试图获得CSV或本页中的每个车间描述。我怎样才能用Regex或任何其他技术废弃它 以下是如何解析网页中所有数据的示例。请执行以下操作: 打开网页e。G镀铬的。按F12打开开发人员工具。转到控制台选项卡。复制以下代码,将其粘贴到控制台中,然后按Enter键2: (函数(){ //为输出创建表 var addCell=函数(htmlContent){ 变量单元格=行插入单元格(-1); cell.innerHTML=htmlContent; cell.style='边框:黑色1px实体;边框折叠
以下是如何解析网页中所有数据的示例。请执行以下操作: 打开网页e。G镀铬的。按F12打开开发人员工具。转到控制台选项卡。复制以下代码,将其粘贴到控制台中,然后按Enter键2:
(函数(){
//为输出创建表
var addCell=函数(htmlContent){
变量单元格=行插入单元格(-1);
cell.innerHTML=htmlContent;
cell.style='边框:黑色1px实体;边框折叠:折叠;垂直对齐:顶部;填充:3px;'
};
var table=document.createElement(“表”);
document.body.appendChild(表);
table.style='边距:10px;'
//添加表格标题和正文
var tHead=table.createTHead();
变量行=辅助插入行(-1);
[“演讲者”、“标题”、“描述”、“地点”、“参与者”、“持续时间”、“要求”、“简历].forEach(addCell);
var tBody=document.createElement(“tBody”)
表2.附件子项(t正文)
//分析每个会话
var sessions=document.querySelectorAll(“div[id^='session']”);
对于(var i=0;i var r=f.innerHTML.match(/
(?:([\s\s]*?)我忘记回答你了。太好了!谢谢!
(function () {
// create table for output
var addCell = function(htmlContent) {
var cell = row.insertCell(-1);
cell.innerHTML = htmlContent;
cell.style = 'border:black 1px solid;border-collapse:collapse;vertical-align:top;padding:3px;'
};
var table = document.createElement("table");
document.body.appendChild(table);
table.style = 'margin:10px;'
// add table header and body
var tHead = table.createTHead();
var row = tHead.insertRow(-1);
["Speaker","Title","Description","Location","Participants","Duration","Requirements","Bio"].forEach(addCell);
var tBody = document.createElement("tbody")
table.appendChild(tBody)
// parse each session
var sessions = document.querySelectorAll("div[id^='session']");
for (var i = 0; i < sessions.length; i++) {
// parse each workshop
var workshops = sessions[i].querySelectorAll("div.row-ws");
for (var j = 0; j < workshops.length; j++) {
// add row
row = tBody.insertRow(-1);
// parse speaker
var m = workshops[j].querySelector("div.ws-name-col").innerText.trim();
addCell(m);
// parse workshop title
m = workshops[j].querySelector("h4.panel-title").innerText.trim();
addCell(m);
// parse workshop description
var f = workshops[j].querySelector("div.panel-body div")
var r = f.innerHTML.match(/<br>(?:([\s\S]*?)<p><i class\="fa [\s\S]*|([\s\S]*$))/)
if (r) {
if (r[1]) {
m = r[1].trim();
} else {
m = r[2].trim();
}
} else {
m = "";
}
addCell(m);
// parse workshop info
var p = f.querySelector("p");
for (var k = 0; k < 4; k++) {
if (p) {
m = p.innerText.trim();
addCell(m);
p = p.nextElementSibling;
} else {
addCell("");
}
}
// parse bio
f = f.nextElementSibling;
if (f) {
m = f.innerHTML.match(/\<br\>([\s\S]*)/)[1]
addCell(m);
} else {
addCell("");
}
}
}
})();