MATLAB中的3天滚动相关计算

MATLAB中的3天滚动相关计算,matlab,struct,correlation,rolling-computation,Matlab,Struct,Correlation,Rolling Computation,我需要计算3天的相关性。下面给出了一个示例矩阵。我的问题是ID可能不是每天都在宇宙中。例如,AAPL可能总是在宇宙中,但CCL公司可能在我的宇宙中只存在2天。我希望有一个矢量化的解决方案。我可能不得不在这里使用structs/accumarray等,因为相关矩阵的大小可能会有所不同 % col1 = tradingDates, col2 = companyID_asInts, col3 = VALUE_forCorrelation rawdata = [ ... 734614 1 0

我需要计算3天的相关性。下面给出了一个示例矩阵。我的问题是ID可能不是每天都在宇宙中。例如,AAPL可能总是在宇宙中,但CCL公司可能在我的宇宙中只存在2天。我希望有一个矢量化的解决方案。我可能不得不在这里使用structs/
accumarray
等,因为相关矩阵的大小可能会有所不同

% col1 = tradingDates, col2 = companyID_asInts, col3 = VALUE_forCorrelation

rawdata = [ ...

    734614 1 0.5; 
    734614 2 0.4; 
    734614 3 0.1; 

    734615 1 0.6; 
    734615 2 0.4; 
    734615 3 0.2; 
    734615 4 0.5; 
    734615 5 0.12;

    734618 1 0.11; 
    734618 2 0.9; 
    734618 3 0.2; 
    734618 4 0.1; 
    734618 5 0.33;
    734618 6 0.55; 

    734619 2 0.11; 
    734619 3 0.45; 
    734619 4 0.1; 
    734619 5 0.6; 
    734619 6 0.5;

    734620 5 0.1; 
    734620 6 0.3] ; 
“3天相关性”:

% 734614 & 734615 corr is ignored as this is a 3-day corr

% 734618_corr = corrcoef(IDs 1,2,3 values are used. ID 4,5,6 is ignored) -> 3X3 matrix

% 734619_corr = corrcoef(IDs 2,3,4,5 values are used. ID 1,6 is ignored) -> 3X4 matrix

% 734620_corr = corrcoef(IDs 5,6 values are used. ID 1,2,3,4 is ignored) -> 3X2 matrix

真实数据涵盖了1995-2011年间Russel1000宇宙,超过410万行。所需的相关性超过20天。

我不会在这里尝试得到矢量化的解决方案:这意味着循环在最新版本的MATLAB上通常可以同样快

您的矩阵看起来很像稀疏矩阵:将其转换为该形式是否有助于使用数组索引?这可能只有在第三列中的数据永远不能为0时才起作用,否则您必须保留当前的显式列表,并使用如下内容:

dates = unique(rawdata(:, 1));
num_comps = max(rawdata(:, 2));

for d = 1:length(dates) - 2;
    days = dates(d:d + 2);

    companies = true(1, num_comps);
    for curr_day = days'
        c = false(1, num_comps);
        c(rawdata(rawdata(:, 1) == curr_day, 2)) = true;
        companies = companies & c;
    end
    companies = find(companies);

    data = zeros(3, length(companies));
    for curr_day = 1:3
        for company = 1:length(companies)
            data(curr_day, company) = ...
                rawdata(rawdata(:, 1) == days(curr_day) & ...
                        rawdata(:, 2) == companies(company), 3);
        end
    end

    corrcoef(data)
end

嗨,汤姆。矩阵不是稀疏的。正如您所提到的,第3列中的数据有时可以是0(每日收益)。我正在尝试使用一个for循环和某种向量化方法。谢谢谢谢你,汤姆!你的逻辑很好。虽然这样的代码每次迭代花费了
>1个小时
。在使用您的总体逻辑时,我已将中心部分修改为矢量化解决方案:……companys=find(companys);%然后->
size\u comp=size(公司),1;大小\天=大小(天,1);daysvec=排序(repmat(天,大小,1));compvec=repmat(公司),大小为1天;matchmat=[daysvec compvec];[~,loc]=ismember(matchmat(:,[12]),rawdata(:,[12]),'rows');%matchmat(:,3)=原始数据(loc,3);newmat=rawdata(loc,:);%zzzz=重塑(matchmat(:,3),尺寸_comp,尺寸_days);finalmat=重塑(新材料(:,3),尺寸/复合,尺寸/天数);corrcoef(finalmat)
:现在一次迭代只需8.9秒!非常感谢你的algo!