C# 用于执行大规模并行查询的泛型类。反馈
我不明白为什么,但在客户端库中似乎没有机制来并行执行许多针对Windows Azure表存储的查询。我创建了一个模板类,可以用来节省大量的时间,欢迎您随意使用它。不过,如果你能把它分开,并就如何改进这门课提供反馈,我将不胜感激C# 用于执行大规模并行查询的泛型类。反馈,c#,azure,azure-storage,azure-table-storage,C#,Azure,Azure Storage,Azure Table Storage,我不明白为什么,但在客户端库中似乎没有机制来并行执行许多针对Windows Azure表存储的查询。我创建了一个模板类,可以用来节省大量的时间,欢迎您随意使用它。不过,如果你能把它分开,并就如何改进这门课提供反馈,我将不胜感激 public class AsyncDataQuery<T> where T: new() { public AsyncDataQuery(bool preserve_order) { m_preserve_order = pr
public class AsyncDataQuery<T> where T: new()
{
public AsyncDataQuery(bool preserve_order)
{
m_preserve_order = preserve_order;
this.Queries = new List<CloudTableQuery<T>>(1000);
}
public void AddQuery(IQueryable<T> query)
{
var data_query = (DataServiceQuery<T>)query;
var uri = data_query.RequestUri; // required
this.Queries.Add(new CloudTableQuery<T>(data_query));
}
/// <summary>
/// Blocking but still optimized.
/// </summary>
public List<T> Execute()
{
this.BeginAsync();
return this.EndAsync();
}
public void BeginAsync()
{
if (m_preserve_order == true)
{
this.Items = new List<T>(Queries.Count);
for (var i = 0; i < Queries.Count; i++)
{
this.Items.Add(new T());
}
}
else
{
this.Items = new List<T>(Queries.Count * 2);
}
m_wait = new ManualResetEvent(false);
for (var i = 0; i < Queries.Count; i++)
{
var query = Queries[i];
query.BeginExecuteSegmented(callback, i);
}
}
public List<T> EndAsync()
{
m_wait.WaitOne();
m_wait.Dispose();
return this.Items;
}
private List<T> Items { get; set; }
private List<CloudTableQuery<T>> Queries { get; set; }
private bool m_preserve_order;
private ManualResetEvent m_wait;
private int m_completed = 0;
private object m_lock = new object();
private void callback(IAsyncResult ar)
{
int i = (int)ar.AsyncState;
CloudTableQuery<T> query = Queries[i];
var response = query.EndExecuteSegmented(ar);
if (m_preserve_order == true)
{ // preserve ordering only supports one result per query
lock (m_lock)
{
this.Items[i] = response.Results.Single();
}
}
else
{ // add any number of items
lock (m_lock)
{
this.Items.AddRange(response.Results);
}
}
if (response.HasMoreResults == true)
{ // more data to pull
query.BeginExecuteSegmented(response.ContinuationToken, callback, i);
return;
}
m_completed = Interlocked.Increment(ref m_completed);
if (m_completed == Queries.Count)
{
m_wait.Set();
}
}
}
公共类AsyncDataQuery,其中T:new()
{
公共异步数据查询(布尔保留顺序)
{
m_preserve_order=preserve_order;
this.querys=新列表(1000);
}
公共void AddQuery(IQueryable查询)
{
var data_query=(DataServiceQuery)查询;
var uri=data\u query.RequestUri;//必需
this.querys.Add(newcloudtablequery(data_query));
}
///
///阻塞,但仍然优化。
///
公共列表执行()
{
this.BeginAsync();
返回这个.EndAsync();
}
public void BeginAsync()
{
if(m_preserve_order==true)
{
this.Items=新列表(querys.Count);
对于(var i=0;i
您是否考虑过使用任务并行库
我想我参加聚会迟到了。我想补充两点:
我或多或少地重写了上面的代码。“我的重写”删除了所有锁定,支持挂起事务的客户端超时(虽然很少见,但确实会发生,而且会毁了你的一天),以及一些异常处理逻辑。有一个完整的解决方案,可以进行测试。最相关的代码存在于中,尽管它确实需要项目其他部分中的一些助手 顺便说一句,这是在生产中运行的(在newscandy.com上),到目前为止,它似乎对我的使用效果很好。但似乎还有很大的改进空间。简单看一下:不要公开集合的setter,也不要公开具体的集合实现。好建议。我同意实施也需要更多的考虑。功能方面有什么改进吗?无论是为了性能还是功能。回调是否在多个线程中被调用?我看起来不太安全。特别是
Items.AddRange
调用。当您的代码因为有多个结果而无法保持顺序时,应该抛出异常。您可以使用.Single
而不是。首先
这听起来应该放在codereview.stackexchange.com上,而不是放在这里?建议不错。我不确定在这一点上它会给我带来多少好处,但如果我是从零开始,我可能会尝试这条路线。对于那些对多线程开发不太熟悉的人,我当然会推荐任务并行库。很抱歉反应太晚,我不确定我怎么会错过它。很好的反馈。我在ManualResetEvent上添加了manual Dispose调用,但最终它在GC调用析构函数时被销毁。手动调用Dispose实际上只是在(非常)高容量下的一个问题。错误处理是另一个很好的建议,但是现在没有时间调试它(因为我没有使用它)。尽管如此,请随时回复,我会很高兴地更新模板!