[feat] change the log position of UCM metrics

sumingZero · flesher0813 · commit 629a9a7238f7 · 2025-11-26T17:21:44.000+08:00
diff --git a/CMakeLists.txt b/CMakeLists.txt
@@ -8,6 +8,7 @@ set(CMAKE_EXPORT_COMPILE_COMMANDS ON)
 
 option(BUILD_UCM_STORE "build ucm store module." ON)
 option(BUILD_UCM_SPARSE "build ucm sparse module." ON)
+option(BUILD_UCM_METRICS "build ucm metrics module." ON)
 option(BUILD_UNIT_TESTS "build all unit test suits." OFF)
 option(BUILD_NUMA "build numactl library." OFF)
 option(DOWNLOAD_DEPENDENCE "download dependence by cmake." ON)
diff --git a/ucm/CMakeLists.txt b/ucm/CMakeLists.txt
@@ -5,3 +5,6 @@ endif()
 if(BUILD_UCM_SPARSE)
     add_subdirectory(sparse)
 endif()
+if(BUILD_UCM_METRICS)
+    add_subdirectory(metrics)
+endif()
diff --git a/ucm/integration/vllm/ucm_connector.py b/ucm/integration/vllm/ucm_connector.py
@@ -19,10 +19,10 @@
 from vllm.v1.request import Request
 
 from ucm.logger import init_logger
+from ucm.metrics.ucm_obser import UCMStatsLogger
 from ucm.metrics.ucmmonitor import UCMStatsMonitor
 from ucm.store.factory import UcmConnectorFactory
 from ucm.store.ucmstore import Task, UcmKVStoreBase
-from ucm.metrics.ucm_obser import UCMStatsLogger
 from ucm.utils import Config
 
 if TYPE_CHECKING:
@@ -131,6 +131,8 @@ def __init__(self, vllm_config: "VllmConfig", role: KVConnectorRole):
 
         connector_configs = self.launch_config.get("ucm_connectors", [])
         assert len(connector_configs) > 0, "no storage connector name in config."
+            self.io_size = config["io_size"]
+            self.num_layers = num_layers
 
         name = connector_configs[0].get("ucm_connector_name")
         config = connector_configs[0].get("ucm_connector_config") or {}
@@ -445,17 +447,21 @@ def _broadcast(self, dst_tensor_addr: list[torch.Tensor]):
                 tensor.copy_(rec_tensor[i])
 
     def start_load_kv(self, forward_context: "ForwardContext", **kwargs) -> None:
-
         metadata = self._get_connector_metadata()
         assert isinstance(metadata, UCMConnectorMetadata)
 
         self._init_kv_caches_from_forward_context(forward_context)
 
         request_to_task: dict[str, Optional[Task]] = {}
         req_broadcast_addr = {}
+        is_load = False
+        num_loaded_block = 0
+        load_start_time = time.perf_counter() * 1000
         for request_id, request in metadata.request_meta.items():
             if len(request.load_block_ids[0]) == 0:
                 continue
+            is_load = True
+            num_loaded_block += len(request.load_block_ids[0])
 
             ucm_block_ids, vllm_block_ids = request.load_block_ids
             if self.rank != 0 and not self.is_mla:
@@ -479,6 +485,20 @@ def start_load_kv(self, forward_context: "ForwardContext", **kwargs) -> None:
                     logger.error(f"request {request_id} load kv cache failed.")
             if self.load_only_first_rank:
                 self._broadcast(req_broadcast_addr[request_id])
+        load_end_time = time.perf_counter() * 1000
+        if is_load:
+            UCMStatsMonitor.get_instance().update_stats(
+                "UCMStats",
+                {
+                    "load_duration": load_end_time - load_start_time,
+                    "load_speed": num_loaded_block
+                    * self.io_size
+                    * self.num_layers
+                    / (load_end_time - load_start_time)
+                    / 1024
+                    / 1024,  # GB/s
+                },
+            )
 
     def wait_for_layer_load(self, layer_name: str) -> None:
         pass
@@ -493,7 +513,6 @@ def save_kv_layer(
         pass
 
     def wait_for_save(self) -> None:
-
         if self.is_mla and self.rank != 0:
             return
 
@@ -502,9 +521,14 @@ def wait_for_save(self) -> None:
 
         request_to_task: dict[str, Task] = {}
         request_to_blocks: dict[str, list[str]] = {}
+        is_dump = False
+        dump_start_time = time.perf_counter() * 1000
+        num_dumped_block = 0
         for request_id, request in metadata.request_meta.items():
             if len(request.dump_block_ids[0]) == 0:
                 continue
+            is_dump = True
+            num_dumped_block += len(request.dump_block_ids[0])
 
             ucm_block_ids, vllm_block_ids = request.dump_block_ids
             if self.rank != 0:
@@ -539,6 +563,20 @@ def wait_for_save(self) -> None:
             else:
                 logger.error(f"request {request_id} dump kv cache failed.")
                 self.store.commit(ucm_block_ids, False)
+        dump_end_time = time.perf_counter() * 1000
+        if is_dump:
+            UCMStatsMonitor.get_instance().update_stats(
+                "UCMStats",
+                {
+                    "save_duration": dump_end_time - dump_start_time,
+                    "save_speed": num_dumped_block
+                    * self.io_size
+                    * self.num_layers
+                    / (dump_end_time - dump_start_time)
+                    / 1024
+                    / 1024,  # GB/s
+                },
+            )
 
     def clear_connector_metadata(self) -> None:
         super().clear_connector_metadata()
diff --git a/ucm/metrics/CMakeLists.txt b/ucm/metrics/CMakeLists.txt
@@ -1,23 +1,19 @@
-cmake_minimum_required(VERSION 3.16)
+cmake_minimum_required(VERSION 3.18)
 project(ucm_metrics LANGUAGES CXX)
 
 set(CMAKE_CXX_STANDARD 17)
 set(CMAKE_CXX_STANDARD_REQUIRED ON)
 
-find_package(pybind11 REQUIRED)
+# find_package(pybind11 REQUIRED)
 
-add_library(metrics STATIC
+pybind11_add_module(ucmmonitor
+    cpy/metrics.py.cc
+    cc/stats/ucm_stats.cc
+    cc/stats_registry.cc
     cc/stats_monitor.cc
 )
 
-set_property(TARGET metrics PROPERTY POSITION_INDEPENDENT_CODE ON)
-
-target_include_directories(metrics PUBLIC
-    ${CMAKE_CURRENT_SOURCE_DIR}/cc
-)
-
-pybind11_add_module(ucmmonitor cpy/metrics.py.cc)
-target_link_libraries(ucmmonitor PRIVATE metrics)
+target_include_directories(ucmmonitor PRIVATE ${CMAKE_CURRENT_SOURCE_DIR}/cc)
 
 set_target_properties(ucmmonitor PROPERTIES
     LIBRARY_OUTPUT_DIRECTORY ${CMAKE_CURRENT_SOURCE_DIR}
diff --git a/ucm/metrics/cc/stats/istats.h b/ucm/metrics/cc/stats/istats.h
@@ -1,4 +1,6 @@
-#pragma once
+#ifndef UCM_METRICS_ISTATS_H
+#define UCM_METRICS_ISTATS_H
+
 #include <string>
 #include <memory>
 #include <unordered_map>
@@ -12,3 +14,4 @@ class IStats {
     virtual void reset() = 0;
     virtual std::unordered_map<std::string, std::vector<double>> data() = 0;
 };
+#endif 
diff --git a/ucm/metrics/cc/stats/ucm_stats.cc b/ucm/metrics/cc/stats/ucm_stats.cc
@@ -0,0 +1,52 @@
+#include "ucm_stats.h"
+#include "../stats_registry.h"   
+#include <iostream>
+
+UCMStats::UCMStats() = default;
+
+std::string UCMStats::name() const {
+    return "UCMStats";
+}
+
+void UCMStats::reset() {
+    for (auto& v : data_) v.clear();
+}
+
+void UCMStats::update(const std::unordered_map<std::string, double>& params) {
+    for (const auto& [k, v] : params) {
+        Key id = key_from_string(k);
+        if (id == Key::COUNT) continue;
+        emplace_back(id, v);
+    }
+}
+
+std::unordered_map<std::string, std::vector<double>> UCMStats::data() {
+    std::unordered_map<std::string, std::vector<double>> result;
+    result["save_duration"] = data_[static_cast<std::size_t>(Key::save_duration)];
+    result["save_speed"] = data_[static_cast<std::size_t>(Key::save_speed)];
+    result["load_duration"] = data_[static_cast<std::size_t>(Key::load_duration)];
+    result["load_speed"] = data_[static_cast<std::size_t>(Key::load_speed)];
+    result["interval_lookup_hit_rates"] = data_[static_cast<std::size_t>(Key::interval_lookup_hit_rates)];
+    return result;
+}
+
+Key UCMStats::key_from_string(const std::string& k) {
+    if (k == "save_duration")            return Key::save_duration;
+    if (k == "save_speed")               return Key::save_speed;
+    if (k == "load_duration")            return Key::load_duration;
+    if (k == "load_speed")               return Key::load_speed;
+    if (k == "interval_lookup_hit_rates")return Key::interval_lookup_hit_rates;
+    return Key::COUNT;
+}
+
+void UCMStats::emplace_back(Key id, double value) {
+    data_[static_cast<std::size_t>(id)].push_back(value);
+}
+
+struct Registrar {
+    Registrar() {
+        StatsRegistry::registerStats("UCMStats", []()->std::unique_ptr<IStats> {
+            return std::make_unique<UCMStats>();
+        });
+    }
+} registrar;
diff --git a/ucm/metrics/cc/stats/ucm_stats.h b/ucm/metrics/cc/stats/ucm_stats.h
@@ -1,65 +1,38 @@
-#pragma once
+#ifndef UCM_METRICS_UCMSTATS_H
+#define UCM_METRICS_UCMSTATS_H
+
 #include "istats.h"
 #include <array>
 #include <vector>
 #include <unordered_map>
 #include <string>
+#include <cstdint>
 
-/* key → id */
 enum class Key : uint8_t {
     save_duration = 0,
     save_speed,
     load_duration,
     load_speed,
     interval_lookup_hit_rates,
-    COUNT  // Total keys num
+    COUNT
 };
 
 class UCMStats : public IStats {
-    static constexpr std::size_t N = static_cast<std::size_t>(Key::COUNT);
-    std::array<std::vector<double>, N> data_;
-
-    static Key key_from_string(const std::string& k) {
-        if (k == "save_duration")            return Key::save_duration;
-        if (k == "save_speed")               return Key::save_speed;
-        if (k == "load_duration")            return Key::load_duration;
-        if (k == "load_speed")               return Key::load_speed;
-        if (k == "interval_lookup_hit_rates")return Key::interval_lookup_hit_rates;
-        return Key::COUNT;  // Invalid key
-    }
-
 public:
-    UCMStats() = default;
-
-    std::string name() const override {
-        return "UCMStats";
-    }
+    UCMStats();
+    ~UCMStats() = default;
 
-    void reset() override {
-        for (auto& v : data_) v.clear();
-    }
-
-    void update(const std::unordered_map<std::string, double>& params) override {
-        for (const auto& [k, v] : params) {
-            Key id = key_from_string(k);
-            if (id == Key::COUNT) continue;
-            emplace_back(id, v);
-        }
-    }
-
-    std::unordered_map<std::string, std::vector<double>> data() override {
-        std::unordered_map<std::string, std::vector<double>> result;
-        result["save_duration"] = data_[static_cast<std::size_t>(Key::save_duration)];
-        result["save_speed"] = data_[static_cast<std::size_t>(Key::save_speed)];
-        result["load_duration"] = data_[static_cast<std::size_t>(Key::load_duration)];
-        result["load_speed"] = data_[static_cast<std::size_t>(Key::load_speed)];
-        result["interval_lookup_hit_rates"] = data_[static_cast<std::size_t>(Key::interval_lookup_hit_rates)];
-        return result;
-    }
+    std::string name() const override;
+    void reset() override;
+    void update(const std::unordered_map<std::string, double>& params) override;
+    std::unordered_map<std::string, std::vector<double>> data() override;
 
 private:
-    void emplace_back(Key id, double value) {
-        data_[static_cast<std::size_t>(id)].push_back(value);
-    }
+    static constexpr std::size_t N = static_cast<std::size_t>(Key::COUNT);
+    std::array<std::vector<double>, N> data_;
+
+    static Key key_from_string(const std::string& k);
+    void emplace_back(Key id, double value);
 };
 
+#endif  // UCM_METRICS_UCMSTATS_H
diff --git a/ucm/metrics/cc/stats_monitor.cc b/ucm/metrics/cc/stats_monitor.cc
@@ -3,14 +3,22 @@
 #include "stats_monitor.h"
 #include <mutex>
 #include <vector>
+#include <iostream>
 
 UCMStatsMonitor::UCMStatsMonitor() {
     auto& registry = StatsRegistry::getInstance();
     for (const auto& name : registry.getRegisteredStatsNames()) {
+        std::cout<<"Creating stats instance for: " << name << std::endl;
         stats_map_[name] = registry.createStats(name);
     }
 }
 
+void UCMStatsMonitor::createStats(const std::string& name) {
+    std::lock_guard<std::mutex> lock(mutex_);
+    auto& registry = StatsRegistry::getInstance();
+    stats_map_[name] = registry.createStats(name);
+}
+
 std::unordered_map<std::string, std::vector<double>> UCMStatsMonitor::getStats(const std::string& name) {
     std::lock_guard<std::mutex> lock(mutex_);
     return stats_map_[name]->data();
diff --git a/ucm/metrics/cc/stats_monitor.h b/ucm/metrics/cc/stats_monitor.h
@@ -1,4 +1,6 @@
-#pragma once
+#ifndef UCM_METRICS_MONITOR_H
+#define UCM_METRICS_MONITOR_H
+
 #include "stats/istats.h" 
 #include <unordered_map>
 #include <memory>
@@ -15,6 +17,8 @@ class UCMStatsMonitor {
 
     ~UCMStatsMonitor() = default;
 
+    void createStats(const std::string& name);
+
     std::unordered_map<std::string, std::vector<double>>
         getStats(const std::string& name);
     
@@ -35,4 +39,6 @@ class UCMStatsMonitor {
     UCMStatsMonitor();
     UCMStatsMonitor(const UCMStatsMonitor&) = delete;
     UCMStatsMonitor& operator=(const UCMStatsMonitor&) = delete;
-};
+};
+
+#endif  // UCM_METRICS_MONITOR_H
diff --git a/ucm/metrics/cc/stats_registry.cc b/ucm/metrics/cc/stats_registry.cc
@@ -0,0 +1,29 @@
+#include "stats_registry.h"
+
+std::mutex StatsRegistry::mutex_;
+std::unordered_map<std::string, Creator> StatsRegistry::registry_;
+
+StatsRegistry& StatsRegistry::getInstance() {
+    static StatsRegistry inst;
+    return inst;
+}
+
+void StatsRegistry::registerStats(std::string name, Creator creator) {
+    std::lock_guard lk(mutex_);
+    registry_[name] = creator;
+}
+
+std::unique_ptr<IStats> StatsRegistry::createStats(const std::string& name) {
+    std::lock_guard lk(mutex_);
+    if (auto it = registry_.find(name); it != registry_.end())
+        return it->second();
+    return nullptr;
+}
+
+std::vector<std::string> StatsRegistry::getRegisteredStatsNames() {
+    std::lock_guard lk(mutex_);
+    std::vector<std::string> names;
+    names.reserve(registry_.size());
+    for (auto& [n, _] : registry_) names.push_back(n);
+    return names;
+}
diff --git a/ucm/metrics/cc/stats_registry.h b/ucm/metrics/cc/stats_registry.h
diff --git a/ucm/metrics/test/test.py b/ucm/metrics/test/test.py