Regex 提取事件描述正则表达式或其他_Regex_Web Scraping

Regex 提取事件描述正则表达式或其他

regex web-scraping

Regex 提取事件描述正则表达式或其他,regex,web-scraping,Regex,Web Scraping,我正试图获得CSV或本页中的每个车间描述。我怎样才能用Regex或任何其他技术废弃它以下是如何解析网页中所有数据的示例。请执行以下操作：打开网页e。G镀铬的。按F12打开开发人员工具。转到控制台选项卡。复制以下代码，将其粘贴到控制台中，然后按Enter键2：（函数（）{ //为输出创建表 var addCell=函数（htmlContent）{ 变量单元格=行插入单元格（-1）； cell.innerHTML=htmlContent； cell.style='边框：黑色1px实体；边框折叠

我正试图获得CSV或本页中的每个车间描述。我怎样才能用Regex或任何其他技术废弃它

以下是如何解析网页中所有数据的示例。请执行以下操作：

打开网页e。G镀铬的。按F12打开开发人员工具。转到控制台选项卡。复制以下代码，将其粘贴到控制台中，然后按Enter键2：

（函数（）{
//为输出创建表
var addCell=函数（htmlContent）{
变量单元格=行插入单元格（-1）；
cell.innerHTML=htmlContent；
cell.style='边框：黑色1px实体；边框折叠：折叠；垂直对齐：顶部；填充：3px；'
};
var table=document.createElement（“表”）；
document.body.appendChild（表）；
table.style='边距：10px；'
//添加表格标题和正文
var tHead=table.createTHead（）；
变量行=辅助插入行（-1）；
[“演讲者”、“标题”、“描述”、“地点”、“参与者”、“持续时间”、“要求”、“简历].forEach（addCell）；
var tBody=document.createElement（“tBody”）
表2.附件子项（t正文）
//分析每个会话
var sessions=document.querySelectorAll（“div[id^='session']”）；
对于（var i=0；ivar r=f.innerHTML.match（/
（？：（[\s\s]*？）我忘记回答你了。太好了！谢谢！
(function () {
    // create table for output
    var addCell = function(htmlContent) {
        var cell = row.insertCell(-1);
        cell.innerHTML = htmlContent;
        cell.style = 'border:black 1px solid;border-collapse:collapse;vertical-align:top;padding:3px;'
    };
    var table = document.createElement("table");
    document.body.appendChild(table);
    table.style = 'margin:10px;'
    // add table header and body
    var tHead = table.createTHead();
    var row = tHead.insertRow(-1);
    ["Speaker","Title","Description","Location","Participants","Duration","Requirements","Bio"].forEach(addCell);
    var tBody = document.createElement("tbody")
    table.appendChild(tBody)    
    // parse each session
    var sessions = document.querySelectorAll("div[id^='session']");
    for (var i = 0; i < sessions.length; i++) {
        // parse each workshop
        var workshops = sessions[i].querySelectorAll("div.row-ws");
        for (var j = 0; j < workshops.length; j++) {
            // add row
            row = tBody.insertRow(-1);
            // parse speaker
            var m = workshops[j].querySelector("div.ws-name-col").innerText.trim();
            addCell(m);
            // parse workshop title
            m = workshops[j].querySelector("h4.panel-title").innerText.trim();
            addCell(m);
            // parse workshop description
            var f = workshops[j].querySelector("div.panel-body div")
            var r = f.innerHTML.match(/<br>(?:([\s\S]*?)<p><i class\="fa [\s\S]*|([\s\S]*$))/)
            if (r) {
                if (r[1]) {
                    m = r[1].trim();
                } else {
                    m = r[2].trim();
                }
            } else {
                m = "";
            }
            addCell(m);
            // parse workshop info
            var p = f.querySelector("p");
            for (var k = 0; k < 4; k++) {
                if (p) {
                    m = p.innerText.trim();
                    addCell(m);
                    p = p.nextElementSibling;
                } else {
                    addCell("");
                }
            }
            // parse bio
            f = f.nextElementSibling;
            if (f) {
                m = f.innerHTML.match(/\<br\>([\s\S]*)/)[1]
                addCell(m);
            } else {
                addCell("");
            }
        }
    }
})();