OSDI 2023: ExoFlow A Universal Workflow System for Exactly-Once DAGs

我们使用以下6个分类标准对本文的研究选题进行分析:

1. 恢复策略的重点

  • 特定应用程序: 每个应用程序都包含针对其独特需求的定制恢复机制。 这可以提供优化的恢复,但意味着每个应用程序的开发人员必须独立处理容错性,这会增加复杂性。
  • 系统范围: 总体分布式系统使用通用机制处理所有在其上运行的应用程序的恢复。 这简化了开发,但牺牲了更细粒度、应用程序优化的恢复的可能性。

2. 性能/恢复权衡优先级

  • 以性能为中心: 使用这种方法设计的系统在正常操作期间优先考虑速度和低开销。 从故障中恢复可能更慢且需要更多资源。 这适用于停机时间可以忍受但速度至关重要的应用程序。
  • 以恢复为中心: 这些系统旨在快速故障恢复和最大限度地减少数据丢失。 由于额外的开销(例如维护更多状态),正常操作期间的性能可能会略微降低。 适用于数据完整性和正常运行时间至关重要的应用程序。

3. 组成方法

  • 异构: 涉及构建利用多个应用程序/系统的弹性管道,这些应用程序/系统可能利用不同的恢复策略。 这允许为每个组件提供最佳拟合的恢复模型,但在确保兼容性和一致性方面存在挑战。
  • 同构: 专注于创建在其恢复方法中提供更大灵活性的系统,即使在单个系统内也是如此。 这降低了用户复杂性,但对于系统开发人员来说可能更难设计和实现。

4. 实施难度

你可能感兴趣的:(工作流,DAG,可靠性)