Warning: file_get_contents(/data/phpspider/zhask/data//catemap/4/regex/19.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Regex 提取事件描述正则表达式或其他_Regex_Web Scraping - Fatal编程技术网

Regex 提取事件描述正则表达式或其他

Regex 提取事件描述正则表达式或其他,regex,web-scraping,Regex,Web Scraping,我正试图获得CSV或本页中的每个车间描述。我怎样才能用Regex或任何其他技术废弃它 以下是如何解析网页中所有数据的示例。请执行以下操作: 打开网页e。G镀铬的。按F12打开开发人员工具。转到控制台选项卡。复制以下代码,将其粘贴到控制台中,然后按Enter键2: (函数(){ //为输出创建表 var addCell=函数(htmlContent){ 变量单元格=行插入单元格(-1); cell.innerHTML=htmlContent; cell.style='边框:黑色1px实体;边框折叠

我正试图获得CSV或本页中的每个车间描述。我怎样才能用Regex或任何其他技术废弃它


以下是如何解析网页中所有数据的示例。请执行以下操作:

打开网页e。G镀铬的。按F12打开开发人员工具。转到控制台选项卡。复制以下代码,将其粘贴到控制台中,然后按Enter键2:

(函数(){
//为输出创建表
var addCell=函数(htmlContent){
变量单元格=行插入单元格(-1);
cell.innerHTML=htmlContent;
cell.style='边框:黑色1px实体;边框折叠:折叠;垂直对齐:顶部;填充:3px;'
};
var table=document.createElement(“表”);
document.body.appendChild(表);
table.style='边距:10px;'
//添加表格标题和正文
var tHead=table.createTHead();
变量行=辅助插入行(-1);
[“演讲者”、“标题”、“描述”、“地点”、“参与者”、“持续时间”、“要求”、“简历].forEach(addCell);
var tBody=document.createElement(“tBody”)
表2.附件子项(t正文)
//分析每个会话
var sessions=document.querySelectorAll(“div[id^='session']”);
对于(var i=0;ivar r=f.innerHTML.match(/
(?:([\s\s]*?)我忘记回答你了。太好了!谢谢!
(function () {
    // create table for output
    var addCell = function(htmlContent) {
        var cell = row.insertCell(-1);
        cell.innerHTML = htmlContent;
        cell.style = 'border:black 1px solid;border-collapse:collapse;vertical-align:top;padding:3px;'
    };
    var table = document.createElement("table");
    document.body.appendChild(table);
    table.style = 'margin:10px;'
    // add table header and body
    var tHead = table.createTHead();
    var row = tHead.insertRow(-1);
    ["Speaker","Title","Description","Location","Participants","Duration","Requirements","Bio"].forEach(addCell);
    var tBody = document.createElement("tbody")
    table.appendChild(tBody)    
    // parse each session
    var sessions = document.querySelectorAll("div[id^='session']");
    for (var i = 0; i < sessions.length; i++) {
        // parse each workshop
        var workshops = sessions[i].querySelectorAll("div.row-ws");
        for (var j = 0; j < workshops.length; j++) {
            // add row
            row = tBody.insertRow(-1);
            // parse speaker
            var m = workshops[j].querySelector("div.ws-name-col").innerText.trim();
            addCell(m);
            // parse workshop title
            m = workshops[j].querySelector("h4.panel-title").innerText.trim();
            addCell(m);
            // parse workshop description
            var f = workshops[j].querySelector("div.panel-body div")
            var r = f.innerHTML.match(/<br>(?:([\s\S]*?)<p><i class\="fa [\s\S]*|([\s\S]*$))/)
            if (r) {
                if (r[1]) {
                    m = r[1].trim();
                } else {
                    m = r[2].trim();
                }
            } else {
                m = "";
            }
            addCell(m);
            // parse workshop info
            var p = f.querySelector("p");
            for (var k = 0; k < 4; k++) {
                if (p) {
                    m = p.innerText.trim();
                    addCell(m);
                    p = p.nextElementSibling;
                } else {
                    addCell("");
                }
            }
            // parse bio
            f = f.nextElementSibling;
            if (f) {
                m = f.innerHTML.match(/\<br\>([\s\S]*)/)[1]
                addCell(m);
            } else {
                addCell("");
            }
        }
    }
})();