entropic/inference_2backend_8cpp_source.html

// SPDX-License-Identifier: Apache-2.0

#include <entropic/inference/backend.h>

#include <entropic/types/logging.h>


#include <cmath>

#include <cstdlib>

#include <stdexcept>

#include <string>


namespace entropic {


namespace {


auto logger = entropic::log::get("inference.backend");


const char* state_name(ModelState s) {

    static constexpr const char* names[] = {"COLD", "WARM", "ACTIVE"};

    int idx = static_cast<int>(s);

    return (idx >= 0 && idx <= 2) ? names[idx] : "UNKNOWN";

}


} // anonymous namespace


// ── Lifecycle ──────────────────────────────────────────────


bool InferenceBackend::load(const ModelConfig& config) {

    std::lock_guard<std::mutex> lock(transition_mutex_);


    if (state() != ModelState::COLD) {

        logger->info("[VRAM] load() no-op: already {}", state_name(state()));

        return true;

    }


    // Hook: ON_MODEL_LOAD — can cancel (v1.9.1)

    bool cancelled = fire_model_load_hook(config);

    if (cancelled) {

        return false;

    }


    logger->info("[VRAM] Loading: {}", config.path.string());

    auto start = entropic::log::now();


    config_ = config;

    bool ok = do_load(config);

    if (!ok) {

        logger->error("[VRAM] Load failed: {}", last_error_);

    } else {

        state_.store(ModelState::WARM, std::memory_order_release);

        logger->info("[VRAM] Warm in {:.2f}ms", entropic::log::elapsed_ms(start, entropic::log::now()));

    }

    return ok;

}


bool InferenceBackend::activate() {

    std::lock_guard<std::mutex> lock(transition_mutex_);


    if (state() == ModelState::ACTIVE) {

        logger->info("[VRAM] activate() no-op: already ACTIVE");

        return true;

    }

    if (state() != ModelState::WARM) {

        logger->error("[VRAM] activate() failed: not WARM ({})", state_name(state()));

        return false;

    }


    logger->info("[VRAM] Activating");

    auto start = entropic::log::now();

    bool ok = do_activate();

    if (!ok) {

        logger->error("[VRAM] Activate failed: {}", last_error_);

    } else {

        state_.store(ModelState::ACTIVE, std::memory_order_release);

        logger->info("[VRAM] Active in {:.2f}ms", entropic::log::elapsed_ms(start, entropic::log::now()));

    }

    return ok;

}


void InferenceBackend::deactivate() {

    std::lock_guard<std::mutex> lock(transition_mutex_);


    if (state() != ModelState::ACTIVE) {

        logger->info("[VRAM] deactivate() no-op: {}", state_name(state()));

        return;

    }


    logger->info("[VRAM] Deactivating");

    auto start = entropic::log::now();


    do_deactivate();

    state_.store(ModelState::WARM, std::memory_order_release);


    logger->info("[VRAM] Deactivated in {:.2f}ms", entropic::log::elapsed_ms(start, entropic::log::now()));

}


void InferenceBackend::unload() {

    std::lock_guard<std::mutex> lock(transition_mutex_);


    // Hook: ON_MODEL_UNLOAD — informational (v1.9.1)

    if (hooks_.fire_info != nullptr) {

        std::string json = "{\"state\":\""

            + std::string(state_name(state())) + "\"}";

        hooks_.fire_info(hooks_.registry,

            ENTROPIC_HOOK_ON_MODEL_UNLOAD, json.c_str());

    }


    logger->info("[VRAM] Unloading from {}", state_name(state()));


    do_unload();

    state_.store(ModelState::COLD, std::memory_order_release);


    logger->info("[VRAM] Unloaded");

}


bool InferenceBackend::load_and_activate(const ModelConfig& config) {

    if (!load(config)) {

        return false;

    }

    return activate();

}


// ── Generation ─────────────────────────────────────────────


GenerationResult InferenceBackend::generate(

    const std::vector<Message>& messages,

    const GenerationParams& params)

{

    if (!is_active()) {

        GenerationResult err;

        err.error_code = ENTROPIC_ERROR_INVALID_STATE;

        err.error_message = "generate() requires ACTIVE state";

        err.finish_reason = "error";

        logger->error("{}", err.error_message);

        return err;

    }


    auto start = entropic::log::now();

    auto result = do_generate(messages, params);

    result.generation_time_ms = entropic::log::elapsed_ms(start, entropic::log::now());

    return result;

}


GenerationResult InferenceBackend::generate(

    const std::vector<Message>& messages,

    const GenerationParams& params,

    std::atomic<bool>& cancel)

{

    if (!is_active()) {

        GenerationResult err;

        err.error_code = ENTROPIC_ERROR_INVALID_STATE;

        err.error_message = "generate() requires ACTIVE state";

        err.finish_reason = "error";

        logger->error("{}", err.error_message);

        return err;

    }


    auto start = entropic::log::now();

    auto result = do_generate(messages, params, cancel);

    result.generation_time_ms = entropic::log::elapsed_ms(start, entropic::log::now());

    return result;

}


std::vector<GenerationResult> InferenceBackend::generate_batch(

    const std::vector<std::vector<Message>>& requests,

    const std::vector<GenerationParams>& params,

    std::atomic<bool>& cancel)

{

    if (!is_active()) {

        GenerationResult err;

        err.error_code = ENTROPIC_ERROR_INVALID_STATE;

        err.error_message = "generate_batch() requires ACTIVE state";

        err.finish_reason = "error";

        logger->error("{}", err.error_message);

        return {err};

    }

    auto start = entropic::log::now();

    auto results = do_generate_batch(requests, params, cancel);

    double ms = entropic::log::elapsed_ms(start, entropic::log::now());

    for (auto& r : results) { r.total_ms = ms; }

    return results;

}


GenerationResult InferenceBackend::generate_streaming(

    const std::vector<Message>& messages,

    const GenerationParams& params,

    std::function<void(std::string_view token)> on_token,

    std::atomic<bool>& cancel)

{

    if (!is_active()) {

        GenerationResult err;

        err.error_code = ENTROPIC_ERROR_INVALID_STATE;

        err.error_message = "generate_streaming() requires ACTIVE state";

        err.finish_reason = "error";

        logger->error("{}", err.error_message);

        return err;

    }


    auto start = entropic::log::now();

    auto result = do_generate_streaming(messages, params, on_token, cancel);

    result.generation_time_ms = entropic::log::elapsed_ms(start, entropic::log::now());

    return result;

}


GenerationResult InferenceBackend::generate_speculative(

    const std::vector<Message>& messages,

    const GenerationParams& params,

    std::function<void(std::string_view token)> on_token,

    std::atomic<bool>& cancel)

{

    if (!is_active()) {

        GenerationResult err;

        err.error_code = ENTROPIC_ERROR_INVALID_STATE;

        err.error_message =

            "generate_speculative() requires ACTIVE state";

        err.finish_reason = "error";

        logger->error("{}", err.error_message);

        return err;

    }

    auto start = entropic::log::now();

    auto result = do_generate_speculative(

        messages, params, std::move(on_token), cancel);

    result.generation_time_ms =

        entropic::log::elapsed_ms(start, entropic::log::now());

    return result;

}


GenerationResult InferenceBackend::do_generate_speculative(

    const std::vector<Message>& /*messages*/,

    const GenerationParams& /*params*/,

    std::function<void(std::string_view)> /*on_token*/,

    std::atomic<bool>& /*cancel*/)

{

    GenerationResult result;

    result.error_code = ENTROPIC_ERROR_NOT_SUPPORTED;

    result.error_message =

        "speculative decoding not implemented for this backend";

    result.finish_reason = "error";

    return result;

}


GenerationResult InferenceBackend::complete(

    const std::string& prompt,

    const GenerationParams& params)

{

    if (!is_active()) {

        GenerationResult err;

        err.error_code = ENTROPIC_ERROR_INVALID_STATE;

        err.error_message = "complete() requires ACTIVE state";

        err.finish_reason = "error";

        logger->error("{}", err.error_message);

        return err;

    }


    auto start = entropic::log::now();

    auto result = do_complete(prompt, params);

    result.generation_time_ms = entropic::log::elapsed_ms(start, entropic::log::now());

    return result;

}


// ── Evaluation (v1.9.10) ───────────────────────────────────


LogprobResult InferenceBackend::evaluate_logprobs(

    const int32_t* tokens,

    int n_tokens)

{

    if (!is_active()) {

        logger->error("evaluate_logprobs: model not ACTIVE (state={})",

                      state_name(state()));

        throw std::runtime_error("Model must be ACTIVE for evaluation");

    }


    if (n_tokens < 2) {

        logger->error("evaluate_logprobs: need >= 2 tokens, got {}",

                      n_tokens);

        throw std::runtime_error(

            "Need at least 2 tokens for logprob evaluation");

    }


    std::lock_guard<std::mutex> lock(eval_mutex_);


    logger->info("evaluate_logprobs: {} tokens, first=[{},{},{}...]",

                 n_tokens, tokens[0],

                 n_tokens > 1 ? tokens[1] : 0,

                 n_tokens > 2 ? tokens[2] : 0);

    auto start = entropic::log::now();


    LogprobResult result = do_evaluate_logprobs(tokens, n_tokens);


    result.total_logprob = 0.0f;

    for (float lp : result.logprobs) {

        result.total_logprob += lp;

    }

    float mean_lp = result.total_logprob /

        static_cast<float>(result.n_logprobs);

    result.perplexity = std::exp(-mean_lp);


    auto ms = entropic::log::elapsed_ms(start, entropic::log::now());

    logger->info("evaluate_logprobs: perplexity={:.2f}, "

                 "total_lp={:.4f}, {:.2f}ms",

                 result.perplexity, result.total_logprob, ms);

    for (int i = 0; i < result.n_logprobs; ++i) {

        logger->info("  logprob[{}]={:.4f}", i, result.logprobs[i]);

    }


    return result;

}


float InferenceBackend::compute_perplexity(

    const int32_t* tokens,

    int n_tokens)

{

    return evaluate_logprobs(tokens, n_tokens).perplexity;

}


// ── Hook helpers (v1.9.1) ──────────────────────────────────


bool InferenceBackend::fire_model_load_hook(const ModelConfig& config) {

    if (hooks_.fire_pre == nullptr) {

        return false;

    }

    std::string json = "{\"model_path\":\""

        + config.path.string() + "\"}";

    char* mod = nullptr;

    int rc = hooks_.fire_pre(hooks_.registry,

        ENTROPIC_HOOK_ON_MODEL_LOAD, json.c_str(), &mod);

    free(mod);

    if (rc != 0) {

        logger->info("[VRAM] ON_MODEL_LOAD hook cancelled");

    }

    return rc != 0;

}


// ── Queries ────────────────────────────────────────────────


int InferenceBackend::count_tokens(const std::string& text) const {

    if (is_loaded()) {

        return do_count_tokens(text);

    }

    return static_cast<int>(text.size()) / 4;

}


// ── Capability queries (v1.9.13) ───────────────────────────


bool InferenceBackend::supports(BackendCapability cap) const {

    return do_supports(cap);

}


std::vector<BackendCapability> InferenceBackend::capabilities() const {

    std::vector<BackendCapability> result;

    int count = static_cast<int>(BackendCapability::_COUNT);

    for (int i = 0; i < count; ++i) {

        auto cap = static_cast<BackendCapability>(i);

        if (supports(cap)) {

            result.push_back(cap);

        }

    }

    return result;

}


BackendInfo InferenceBackend::info() const {

    return do_info();

}


// ── Model state management (v1.9.13) ──────────────────────


bool InferenceBackend::save_state(

    int seq_id, std::vector<uint8_t>& buffer) const

{

    if (!is_active()) {

        logger->warn("save_state: not ACTIVE ({})", state_name(state()));

        return false;

    }

    auto start = entropic::log::now();

    bool ok = do_save_state(seq_id, buffer);

    if (ok) {

        logger->info("save_state: seq={} {}B {:.2f}ms",

                     seq_id, buffer.size(), entropic::log::elapsed_ms(start, entropic::log::now()));

    }

    return ok;

}


bool InferenceBackend::restore_state(

    int seq_id, const std::vector<uint8_t>& buffer)

{

    if (!is_active()) {

        logger->warn("restore_state: not ACTIVE ({})",

                     state_name(state()));

        return false;

    }

    auto start = entropic::log::now();

    bool ok = do_restore_state(seq_id, buffer);

    if (ok) {

        logger->info("restore_state: seq={} {}B {:.2f}ms",

                     seq_id, buffer.size(), entropic::log::elapsed_ms(start, entropic::log::now()));

    }

    return ok;

}


bool InferenceBackend::clear_state(int seq_id) {

    if (state() == ModelState::COLD) {

        logger->warn("clear_state: model is COLD");

        return false;

    }

    bool ok = do_clear_state(seq_id);

    if (ok) {

        logger->info("clear_state: seq={}", seq_id);

    }

    return ok;

}


// ── Multi-sequence generation (v1.9.13) ────────────────────


GenerationResult InferenceBackend::generate_seq(

    int seq_id,

    const std::vector<Message>& messages,

    const GenerationParams& params)

{

    if (!is_active()) {

        GenerationResult err;

        err.error_code = ENTROPIC_ERROR_INVALID_STATE;

        err.error_message = "generate_seq() requires ACTIVE state";

        err.finish_reason = "error";

        logger->error("{}", err.error_message);

        return err;

    }


    auto start = entropic::log::now();

    auto result = do_generate_seq(seq_id, messages, params);

    result.generation_time_ms = entropic::log::elapsed_ms(start, entropic::log::now());

    result.seq_id = seq_id;

    return result;

}


GenerationResult InferenceBackend::generate_streaming_seq(

    int seq_id,

    const std::vector<Message>& messages,

    const GenerationParams& params,

    std::function<void(std::string_view token)> on_token,

    std::atomic<bool>& cancel)

{

    if (!is_active()) {

        GenerationResult err;

        err.error_code = ENTROPIC_ERROR_INVALID_STATE;

        err.error_message =

            "generate_streaming_seq() requires ACTIVE state";

        err.finish_reason = "error";

        logger->error("{}", err.error_message);

        return err;

    }


    auto start = entropic::log::now();

    auto result = do_generate_streaming_seq(

        seq_id, messages, params, on_token, cancel);

    result.generation_time_ms = entropic::log::elapsed_ms(start, entropic::log::now());

    result.seq_id = seq_id;

    return result;

}


// ── Default virtual implementations (v1.9.13) ─────────────


bool InferenceBackend::do_supports(BackendCapability /*cap*/) const {

    return false;

}


BackendInfo InferenceBackend::do_info() const {

    BackendInfo bi;

    bi.name = do_backend_name();

    return bi;

}


bool InferenceBackend::do_save_state(

    int /*seq_id*/, std::vector<uint8_t>& /*buffer*/) const

{

    return false;

}


bool InferenceBackend::do_restore_state(

    int /*seq_id*/, const std::vector<uint8_t>& /*buffer*/)

{

    return false;

}


bool InferenceBackend::do_clear_state(int /*seq_id*/) {

    return false;

}


GenerationResult InferenceBackend::do_generate_seq(

    int /*seq_id*/,

    const std::vector<Message>& messages,

    const GenerationParams& params)

{

    return do_generate(messages, params);

}


GenerationResult InferenceBackend::do_generate_streaming_seq(

    int /*seq_id*/,

    const std::vector<Message>& messages,

    const GenerationParams& params,

    std::function<void(std::string_view token)> on_token,

    std::atomic<bool>& cancel)

{

    return do_generate_streaming(messages, params, on_token, cancel);

}


} // namespace entropic

entropic::InferenceBackend::do_complete
virtual GenerationResult do_complete(const std::string &prompt, const GenerationParams &params)=0
Subclass raw completion.

entropic::InferenceBackend::do_generate_streaming_seq
virtual GenerationResult do_generate_streaming_seq(int seq_id, const std::vector< Message > &messages, const GenerationParams &params, std::function< void(std::string_view token)> on_token, std::atomic< bool > &cancel)
Streaming generation with sequence ID.
Definition backend.cpp:774

entropic::InferenceBackend::generate_seq
GenerationResult generate_seq(int seq_id, const std::vector< Message > &messages, const GenerationParams &params)
Generate with explicit sequence ID.
Definition backend.cpp:625

entropic::InferenceBackend::do_evaluate_logprobs
virtual LogprobResult do_evaluate_logprobs(const int32_t *tokens, int n_tokens)=0
Backend-specific logprob evaluation.

entropic::InferenceBackend::generate_speculative
GenerationResult generate_speculative(const std::vector< Message > &messages, const GenerationParams &params, std::function< void(std::string_view token)> on_token, std::atomic< bool > &cancel)
Generate via the speculative-decoding kernel (v2.1.11).
Definition backend.cpp:302

entropic::InferenceBackend::compute_perplexity
float compute_perplexity(const int32_t *tokens, int n_tokens)
Compute perplexity for a token sequence.
Definition backend.cpp:455

entropic::InferenceBackend::do_generate_batch
virtual std::vector< GenerationResult > do_generate_batch(const std::vector< std::vector< Message > > &requests, const std::vector< GenerationParams > &params, std::atomic< bool > &cancel)
Subclass same-prefix batch generation (gh#98, v2.8.0).
Definition backend.h:535

entropic::InferenceBackend::last_error_
std::string last_error_
Last error message for diagnostics.
Definition backend.h:726

entropic::InferenceBackend::do_info
virtual BackendInfo do_info() const
Populate backend metadata.
Definition backend.cpp:701

entropic::InferenceBackend::do_generate_streaming
virtual GenerationResult do_generate_streaming(const std::vector< Message > &messages, const GenerationParams &params, std::function< void(std::string_view token)> on_token, std::atomic< bool > &cancel)=0
Subclass streaming generation.

entropic::InferenceBackend::save_state
bool save_state(int seq_id, std::vector< uint8_t > &buffer) const
Save model state to buffer.
Definition backend.cpp:554

entropic::InferenceBackend::supports
bool supports(BackendCapability cap) const
Query whether this backend supports a capability.
Definition backend.cpp:512

entropic::InferenceBackend::restore_state
bool restore_state(int seq_id, const std::vector< uint8_t > &buffer)
Restore model state from buffer.
Definition backend.cpp:578

entropic::InferenceBackend::activate
bool activate()
Promote to GPU (WARM → ACTIVE).
Definition backend.cpp:88

entropic::InferenceBackend::do_restore_state
virtual bool do_restore_state(int seq_id, const std::vector< uint8_t > &buffer)
Restore model state.
Definition backend.cpp:729

entropic::InferenceBackend::do_count_tokens
virtual int do_count_tokens(const std::string &text) const =0
Subclass token counting.

entropic::InferenceBackend::do_supports
virtual bool do_supports(BackendCapability cap) const
Declare supported capabilities.
Definition backend.cpp:691

entropic::InferenceBackend::deactivate
void deactivate()
Release GPU layers (ACTIVE → WARM).
Definition backend.cpp:117

entropic::InferenceBackend::do_unload
virtual void do_unload()=0
Full unload.

entropic::InferenceBackend::do_activate
virtual bool do_activate()=0
Promote loaded model to GPU.

entropic::InferenceBackend::info
BackendInfo info() const
Get backend metadata.
Definition backend.cpp:540

entropic::InferenceBackend::is_active
bool is_active() const
True when state is ACTIVE.
Definition backend.h:249

entropic::InferenceBackend::state
ModelState state() const
Current lifecycle state (lock-free read).
Definition backend.h:241

entropic::InferenceBackend::do_load
virtual bool do_load(const ModelConfig &config)=0
Load model into CPU RAM.

entropic::InferenceBackend::do_generate_speculative
virtual GenerationResult do_generate_speculative(const std::vector< Message > &messages, const GenerationParams &params, std::function< void(std::string_view token)> on_token, std::atomic< bool > &cancel)
Subclass speculative-decoding streaming generation.
Definition backend.cpp:340

entropic::InferenceBackend::do_deactivate
virtual void do_deactivate()=0
Release GPU, keep CPU.

entropic::InferenceBackend::do_generate
virtual GenerationResult do_generate(const std::vector< Message > &messages, const GenerationParams &params)=0
Subclass generation.

entropic::InferenceBackend::capabilities
std::vector< BackendCapability > capabilities() const
Get all supported capabilities as a vector.
Definition backend.cpp:522

entropic::InferenceBackend::unload
void unload()
Full unload (→ COLD).
Definition backend.cpp:139

entropic::InferenceBackend::config
const ModelConfig & config() const
Stored model config.
Definition backend.h:320

entropic::InferenceBackend::clear_state
bool clear_state(int seq_id=-1)
Clear/reset model state for a sequence.
Definition backend.cpp:602

entropic::InferenceBackend::do_generate_seq
virtual GenerationResult do_generate_seq(int seq_id, const std::vector< Message > &messages, const GenerationParams &params)
Generate with sequence ID.
Definition backend.cpp:755

entropic::InferenceBackend::do_backend_name
virtual std::string do_backend_name() const =0
Return backend name identifier.

entropic::InferenceBackend::is_loaded
bool is_loaded() const
True when state is WARM or ACTIVE.
Definition backend.h:257

entropic::InferenceBackend::generate_batch
std::vector< GenerationResult > generate_batch(const std::vector< std::vector< Message > > &requests, const std::vector< GenerationParams > &params, std::atomic< bool > &cancel)
Generate N independent same-prefix requests together.
Definition backend.cpp:235

entropic::InferenceBackend::generate
GenerationResult generate(const std::vector< Message > &messages, const GenerationParams &params)
Generate a complete response.
Definition backend.cpp:182

entropic::InferenceBackend::load
bool load(const ModelConfig &config)
Load model into CPU RAM (COLD → WARM).
Definition backend.cpp:54

entropic::InferenceBackend::do_clear_state
virtual bool do_clear_state(int seq_id)
Clear/reset model state.
Definition backend.cpp:742

entropic::InferenceBackend::count_tokens
int count_tokens(const std::string &text) const
Count tokens using model's tokenizer.
Definition backend.cpp:496

entropic::InferenceBackend::do_save_state
virtual bool do_save_state(int seq_id, std::vector< uint8_t > &buffer) const
Save model state (KV cache or hidden state).
Definition backend.cpp:715

entropic::InferenceBackend::fire_model_load_hook
bool fire_model_load_hook(const ModelConfig &config)
Fire ON_MODEL_LOAD pre-hook.
Definition backend.cpp:471

entropic::InferenceBackend::generate_streaming
GenerationResult generate_streaming(const std::vector< Message > &messages, const GenerationParams &params, std::function< void(std::string_view token)> on_token, std::atomic< bool > &cancel)
Generate with per-token streaming callback.
Definition backend.cpp:265

entropic::InferenceBackend::evaluate_logprobs
LogprobResult evaluate_logprobs(const int32_t *tokens, int n_tokens)
Evaluate per-token log-probabilities for a token sequence.
Definition backend.cpp:397

entropic::InferenceBackend::load_and_activate
bool load_and_activate(const ModelConfig &config)
Convenience: load() + activate().
Definition backend.cpp:165

entropic::InferenceBackend::complete
GenerationResult complete(const std::string &prompt, const GenerationParams &params)
Raw text completion without chat template.
Definition backend.cpp:362

entropic::InferenceBackend::generate_streaming_seq
GenerationResult generate_streaming_seq(int seq_id, const std::vector< Message > &messages, const GenerationParams &params, std::function< void(std::string_view token)> on_token, std::atomic< bool > &cancel)
Streaming generation with explicit sequence ID.
Definition backend.cpp:657

entropic::InferenceBackend::state_
std::atomic< ModelState > state_
State transition slot accessible to subclasses for test-only injection.
Definition backend.h:752

ENTROPIC_ERROR_NOT_SUPPORTED
@ ENTROPIC_ERROR_NOT_SUPPORTED
Capability not supported by this backend (v1.9.13)
Definition error.h:84

ENTROPIC_ERROR_INVALID_STATE
@ ENTROPIC_ERROR_INVALID_STATE
Operation not valid in current state (e.g., generate before activate)
Definition error.h:39

ENTROPIC_HOOK_ON_MODEL_UNLOAD
@ ENTROPIC_HOOK_ON_MODEL_UNLOAD
14: Model unloaded from backend
Definition hooks.h:50

ENTROPIC_HOOK_ON_MODEL_LOAD
@ ENTROPIC_HOOK_ON_MODEL_LOAD
13: Model loaded into backend
Definition hooks.h:49

backend.h
InferenceBackend concrete base class.

logging.h
spdlog initialization and logger access.

entropic::log::get
ENTROPIC_EXPORT std::shared_ptr< spdlog::logger > get(const std::string &name)
Get or create a named logger.
Definition logging.cpp:211

entropic
Activate model on GPU (WARM → ACTIVE).
Definition bundled_models.h:20

entropic::BackendCapability
BackendCapability
Capabilities that an inference backend may or may not support.
Definition backend_capability.h:33

entropic::BackendCapability::_COUNT
@ _COUNT
Sentinel — must be last. Used for iteration/array sizing.

entropic::BudgetMode::tokens
@ tokens
Gate on generated tokens since the last tool call.

entropic::ToolResultKind::ok
@ ok
Tool dispatched, returned non-empty content.

entropic::ModelState
ModelState
C++ enum class for model VRAM lifecycle states.
Definition config.h:96

entropic::ModelState::WARM
@ WARM
mmap'd + mlock'd in RAM

entropic::ModelState::ACTIVE
@ ACTIVE
GPU layers loaded, full speed.

entropic::ModelState::COLD
@ COLD
On disk only, no RAM consumed.

entropic::BackendInfo
Backend metadata for introspection.
Definition backend_capability.h:58

entropic::BackendInfo::name
std::string name
Backend identifier (e.g. "llama.cpp", "axcl")
Definition backend_capability.h:59

entropic::GenerationParams
Generation parameters for a single inference call.
Definition config.h:302

entropic::GenerationResult
Result of a single generation call.
Definition generation_result.h:30

entropic::GenerationResult::error_code
entropic_error_t error_code
Error code (ENTROPIC_OK if no error)
Definition generation_result.h:82

entropic::GenerationResult::finish_reason
std::string finish_reason
Finish reason: "stop", "length", "error".
Definition generation_result.h:34

entropic::GenerationResult::error_message
std::string error_message
Error description (empty if no error)
Definition generation_result.h:83

entropic::LogprobResult
Per-token log-probability evaluation result.
Definition logprob_result.h:36

entropic::LogprobResult::logprobs
std::vector< float > logprobs
Log-prob for each token transition (N-1 values)
Definition logprob_result.h:37

entropic::LogprobResult::n_logprobs
int n_logprobs
Number of logprob values (n_tokens - 1)
Definition logprob_result.h:42

entropic::LogprobResult::total_logprob
float total_logprob
Sum of all logprob values.
Definition logprob_result.h:40

entropic::LogprobResult::perplexity
float perplexity
exp(-mean(logprobs)) — lower = less surprising
Definition logprob_result.h:39

entropic::ModelConfig
Model configuration for a single tier.
Definition config.h:148

entropic::ModelConfig::path
std::filesystem::path path
Resolved model file path.
Definition config.h:149