entropic/inference_2backend_8h_source.html

// SPDX-License-Identifier: Apache-2.0

#pragma once


#include <entropic/types/backend_capability.h>

#include <entropic/types/config.h>

#include <entropic/types/generation_result.h>

#include <entropic/types/logprob_result.h>

#include <entropic/types/message.h>

#include <entropic/interfaces/i_hook_handler.h>


#include <atomic>

#include <cstdint>

#include <functional>

#include <mutex>

#include <string>

#include <string_view>

#include <vector>


namespace entropic {


class InferenceBackend {

public:

    virtual ~InferenceBackend() = default;


    /* ── Lifecycle (template methods — own the state machine) ── */


    bool load(const ModelConfig& config);


    bool activate();


    void deactivate();


    void unload();


    bool load_and_activate(const ModelConfig& config);


    /* ── Generation (require ACTIVE state) ───────────────── */


    GenerationResult generate(

        const std::vector<Message>& messages,

        const GenerationParams& params);


    GenerationResult generate(

        const std::vector<Message>& messages,

        const GenerationParams& params,

        std::atomic<bool>& cancel);


    GenerationResult generate_streaming(

        const std::vector<Message>& messages,

        const GenerationParams& params,

        std::function<void(std::string_view token)> on_token,

        std::atomic<bool>& cancel);


    GenerationResult generate_speculative(

        const std::vector<Message>& messages,

        const GenerationParams& params,

        std::function<void(std::string_view token)> on_token,

        std::atomic<bool>& cancel);


    GenerationResult complete(

        const std::string& prompt,

        const GenerationParams& params);


    /* ── Evaluation (require ACTIVE state) ─────────────── */


    LogprobResult evaluate_logprobs(

        const int32_t* tokens,

        int n_tokens);


    float compute_perplexity(

        const int32_t* tokens,

        int n_tokens);


    /* ── Queries (lock-free) ─────────────────────────────── */


    ModelState state() const { return state_.load(std::memory_order_acquire); }


    bool is_active() const { return state() == ModelState::ACTIVE; }


    bool is_loaded() const { return state() != ModelState::COLD; }


    int count_tokens(const std::string& text) const;


    virtual std::vector<int32_t> tokenize_text(

        const std::string& text) const { return {}; }


    int context_length() const { return config_.context_length; }


    virtual void clear_prompt_cache() {}


    virtual std::string tool_call_close_marker() const { return ""; }


    const ModelConfig& config() const { return config_; }


    /* ── Capability queries (v1.9.13) ────────────────────── */


    bool supports(BackendCapability cap) const;


    std::vector<BackendCapability> capabilities() const;


    /* ── Backend metadata (v1.9.13) ──────────────────────── */


    BackendInfo info() const;


    /* ── Model state management (v1.9.13) ────────────────── */


    bool save_state(int seq_id, std::vector<uint8_t>& buffer) const;


    bool restore_state(int seq_id, const std::vector<uint8_t>& buffer);


    bool clear_state(int seq_id = -1);


    /* ── Multi-sequence generation (v1.9.13) ─────────────── */


    GenerationResult generate_seq(

        int seq_id,

        const std::vector<Message>& messages,

        const GenerationParams& params);


    GenerationResult generate_streaming_seq(

        int seq_id,

        const std::vector<Message>& messages,

        const GenerationParams& params,

        std::function<void(std::string_view token)> on_token,

        std::atomic<bool>& cancel);


    /* ── Same-prefix batch generation (gh#98, v2.8.0) ────── */


    std::vector<GenerationResult> generate_batch(

        const std::vector<std::vector<Message>>& requests,

        const std::vector<GenerationParams>& params,

        std::atomic<bool>& cancel);


protected:

    /* ── Subclass overrides (20%) ────────────────────────── */


    virtual bool do_load(const ModelConfig& config) = 0;


    virtual bool do_activate() = 0;


    virtual void do_deactivate() = 0;


    virtual void do_unload() = 0;


    virtual GenerationResult do_generate(

        const std::vector<Message>& messages,

        const GenerationParams& params) = 0;


    virtual GenerationResult do_generate(

        const std::vector<Message>& messages,

        const GenerationParams& params,

        std::atomic<bool>& cancel) {

        (void)cancel;

        return do_generate(messages, params);

    }


    virtual std::vector<GenerationResult> do_generate_batch(

        const std::vector<std::vector<Message>>& requests,

        const std::vector<GenerationParams>& params,

        std::atomic<bool>& cancel) {

        std::vector<GenerationResult> out;

        out.reserve(requests.size());

        for (std::size_t i = 0; i < requests.size(); ++i) {

            out.push_back(do_generate(requests[i], params[i], cancel));

        }

        return out;

    }


    virtual GenerationResult do_generate_streaming(

        const std::vector<Message>& messages,

        const GenerationParams& params,

        std::function<void(std::string_view token)> on_token,

        std::atomic<bool>& cancel) = 0;


    virtual GenerationResult do_generate_speculative(

        const std::vector<Message>& messages,

        const GenerationParams& params,

        std::function<void(std::string_view token)> on_token,

        std::atomic<bool>& cancel);


    virtual GenerationResult do_complete(

        const std::string& prompt,

        const GenerationParams& params) = 0;


    virtual int do_count_tokens(const std::string& text) const = 0;


    virtual LogprobResult do_evaluate_logprobs(

        const int32_t* tokens,

        int n_tokens) = 0;


    /* ── New overridable methods (v1.9.13) ───────────────── */


    virtual bool do_supports(BackendCapability cap) const;


    virtual std::string do_backend_name() const = 0;


    virtual BackendInfo do_info() const;


    virtual bool do_save_state(int seq_id,

                               std::vector<uint8_t>& buffer) const;


    virtual bool do_restore_state(int seq_id,

                                  const std::vector<uint8_t>& buffer);


    virtual bool do_clear_state(int seq_id);


    virtual GenerationResult do_generate_seq(

        int seq_id,

        const std::vector<Message>& messages,

        const GenerationParams& params);


    virtual GenerationResult do_generate_streaming_seq(

        int seq_id,

        const std::vector<Message>& messages,

        const GenerationParams& params,

        std::function<void(std::string_view token)> on_token,

        std::atomic<bool>& cancel);


    std::string last_error_;


    bool fire_model_load_hook(const ModelConfig& config);


    void set_hooks(const HookInterface& hooks) { hooks_ = hooks; }


protected:

    std::atomic<ModelState> state_{ModelState::COLD};


private:

    ModelConfig config_;

    std::mutex transition_mutex_;

    std::mutex eval_mutex_;

    HookInterface hooks_;

};


} // namespace entropic

backend_capability.h
Backend capability flags and metadata for architecture-agnostic queries.

entropic::InferenceBackend
Concrete base class for inference backends (80% logic).
Definition backend.h:69

entropic::InferenceBackend::do_complete
virtual GenerationResult do_complete(const std::string &prompt, const GenerationParams &params)=0
Subclass raw completion.

entropic::InferenceBackend::do_generate_streaming_seq
virtual GenerationResult do_generate_streaming_seq(int seq_id, const std::vector< Message > &messages, const GenerationParams &params, std::function< void(std::string_view token)> on_token, std::atomic< bool > &cancel)
Streaming generation with sequence ID.
Definition backend.cpp:774

entropic::InferenceBackend::generate_seq
GenerationResult generate_seq(int seq_id, const std::vector< Message > &messages, const GenerationParams &params)
Generate with explicit sequence ID.
Definition backend.cpp:625

entropic::InferenceBackend::do_evaluate_logprobs
virtual LogprobResult do_evaluate_logprobs(const int32_t *tokens, int n_tokens)=0
Backend-specific logprob evaluation.

entropic::InferenceBackend::generate_speculative
GenerationResult generate_speculative(const std::vector< Message > &messages, const GenerationParams &params, std::function< void(std::string_view token)> on_token, std::atomic< bool > &cancel)
Generate via the speculative-decoding kernel (v2.1.11).
Definition backend.cpp:302

entropic::InferenceBackend::compute_perplexity
float compute_perplexity(const int32_t *tokens, int n_tokens)
Compute perplexity for a token sequence.
Definition backend.cpp:455

entropic::InferenceBackend::do_generate_batch
virtual std::vector< GenerationResult > do_generate_batch(const std::vector< std::vector< Message > > &requests, const std::vector< GenerationParams > &params, std::atomic< bool > &cancel)
Subclass same-prefix batch generation (gh#98, v2.8.0).
Definition backend.h:535

entropic::InferenceBackend::last_error_
std::string last_error_
Last error message for diagnostics.
Definition backend.h:726

entropic::InferenceBackend::do_info
virtual BackendInfo do_info() const
Populate backend metadata.
Definition backend.cpp:701

entropic::InferenceBackend::do_generate_streaming
virtual GenerationResult do_generate_streaming(const std::vector< Message > &messages, const GenerationParams &params, std::function< void(std::string_view token)> on_token, std::atomic< bool > &cancel)=0
Subclass streaming generation.

entropic::InferenceBackend::save_state
bool save_state(int seq_id, std::vector< uint8_t > &buffer) const
Save model state to buffer.
Definition backend.cpp:554

entropic::InferenceBackend::set_hooks
void set_hooks(const HookInterface &hooks)
Set the hook dispatch interface.
Definition backend.h:742

entropic::InferenceBackend::supports
bool supports(BackendCapability cap) const
Query whether this backend supports a capability.
Definition backend.cpp:512

entropic::InferenceBackend::restore_state
bool restore_state(int seq_id, const std::vector< uint8_t > &buffer)
Restore model state from buffer.
Definition backend.cpp:578

entropic::InferenceBackend::activate
bool activate()
Promote to GPU (WARM → ACTIVE).
Definition backend.cpp:88

entropic::InferenceBackend::do_restore_state
virtual bool do_restore_state(int seq_id, const std::vector< uint8_t > &buffer)
Restore model state.
Definition backend.cpp:729

entropic::InferenceBackend::do_count_tokens
virtual int do_count_tokens(const std::string &text) const =0
Subclass token counting.

entropic::InferenceBackend::do_supports
virtual bool do_supports(BackendCapability cap) const
Declare supported capabilities.
Definition backend.cpp:691

entropic::InferenceBackend::deactivate
void deactivate()
Release GPU layers (ACTIVE → WARM).
Definition backend.cpp:117

entropic::InferenceBackend::do_unload
virtual void do_unload()=0
Full unload.

entropic::InferenceBackend::do_activate
virtual bool do_activate()=0
Promote loaded model to GPU.

entropic::InferenceBackend::info
BackendInfo info() const
Get backend metadata.
Definition backend.cpp:540

entropic::InferenceBackend::is_active
bool is_active() const
True when state is ACTIVE.
Definition backend.h:249

entropic::InferenceBackend::state
ModelState state() const
Current lifecycle state (lock-free read).
Definition backend.h:241

entropic::InferenceBackend::do_load
virtual bool do_load(const ModelConfig &config)=0
Load model into CPU RAM.

entropic::InferenceBackend::do_generate_speculative
virtual GenerationResult do_generate_speculative(const std::vector< Message > &messages, const GenerationParams &params, std::function< void(std::string_view token)> on_token, std::atomic< bool > &cancel)
Subclass speculative-decoding streaming generation.
Definition backend.cpp:340

entropic::InferenceBackend::clear_prompt_cache
virtual void clear_prompt_cache()
Invalidate any backend-owned prompt/KV caches.
Definition backend.h:295

entropic::InferenceBackend::do_deactivate
virtual void do_deactivate()=0
Release GPU, keep CPU.

entropic::InferenceBackend::tokenize_text
virtual std::vector< int32_t > tokenize_text(const std::string &text) const
Tokenize text to token IDs.
Definition backend.h:273

entropic::InferenceBackend::do_generate
virtual GenerationResult do_generate(const std::vector< Message > &messages, const GenerationParams &params)=0
Subclass generation.

entropic::InferenceBackend::capabilities
std::vector< BackendCapability > capabilities() const
Get all supported capabilities as a vector.
Definition backend.cpp:522

entropic::InferenceBackend::unload
void unload()
Full unload (→ COLD).
Definition backend.cpp:139

entropic::InferenceBackend::config
const ModelConfig & config() const
Stored model config.
Definition backend.h:320

entropic::InferenceBackend::tool_call_close_marker
virtual std::string tool_call_close_marker() const
The tool-call CLOSE marker for the active chat format (gh#103).
Definition backend.h:312

entropic::InferenceBackend::clear_state
bool clear_state(int seq_id=-1)
Clear/reset model state for a sequence.
Definition backend.cpp:602

entropic::InferenceBackend::do_generate_seq
virtual GenerationResult do_generate_seq(int seq_id, const std::vector< Message > &messages, const GenerationParams &params)
Generate with sequence ID.
Definition backend.cpp:755

entropic::InferenceBackend::do_backend_name
virtual std::string do_backend_name() const =0
Return backend name identifier.

entropic::InferenceBackend::is_loaded
bool is_loaded() const
True when state is WARM or ACTIVE.
Definition backend.h:257

entropic::InferenceBackend::generate_batch
std::vector< GenerationResult > generate_batch(const std::vector< std::vector< Message > > &requests, const std::vector< GenerationParams > &params, std::atomic< bool > &cancel)
Generate N independent same-prefix requests together.
Definition backend.cpp:235

entropic::InferenceBackend::generate
GenerationResult generate(const std::vector< Message > &messages, const GenerationParams &params)
Generate a complete response.
Definition backend.cpp:182

entropic::InferenceBackend::load
bool load(const ModelConfig &config)
Load model into CPU RAM (COLD → WARM).
Definition backend.cpp:54

entropic::InferenceBackend::do_clear_state
virtual bool do_clear_state(int seq_id)
Clear/reset model state.
Definition backend.cpp:742

entropic::InferenceBackend::count_tokens
int count_tokens(const std::string &text) const
Count tokens using model's tokenizer.
Definition backend.cpp:496

entropic::InferenceBackend::do_save_state
virtual bool do_save_state(int seq_id, std::vector< uint8_t > &buffer) const
Save model state (KV cache or hidden state).
Definition backend.cpp:715

entropic::InferenceBackend::fire_model_load_hook
bool fire_model_load_hook(const ModelConfig &config)
Fire ON_MODEL_LOAD pre-hook.
Definition backend.cpp:471

entropic::InferenceBackend::generate_streaming
GenerationResult generate_streaming(const std::vector< Message > &messages, const GenerationParams &params, std::function< void(std::string_view token)> on_token, std::atomic< bool > &cancel)
Generate with per-token streaming callback.
Definition backend.cpp:265

entropic::InferenceBackend::evaluate_logprobs
LogprobResult evaluate_logprobs(const int32_t *tokens, int n_tokens)
Evaluate per-token log-probabilities for a token sequence.
Definition backend.cpp:397

entropic::InferenceBackend::do_generate
virtual GenerationResult do_generate(const std::vector< Message > &messages, const GenerationParams &params, std::atomic< bool > &cancel)
Subclass batch generation with cancel-flag support.
Definition backend.h:512

entropic::InferenceBackend::context_length
int context_length() const
Model's context window size.
Definition backend.h:282

entropic::InferenceBackend::load_and_activate
bool load_and_activate(const ModelConfig &config)
Convenience: load() + activate().
Definition backend.cpp:165

entropic::InferenceBackend::complete
GenerationResult complete(const std::string &prompt, const GenerationParams &params)
Raw text completion without chat template.
Definition backend.cpp:362

entropic::InferenceBackend::generate_streaming_seq
GenerationResult generate_streaming_seq(int seq_id, const std::vector< Message > &messages, const GenerationParams &params, std::function< void(std::string_view token)> on_token, std::atomic< bool > &cancel)
Streaming generation with explicit sequence ID.
Definition backend.cpp:657

entropic::InferenceBackend::state_
std::atomic< ModelState > state_
State transition slot accessible to subclasses for test-only injection.
Definition backend.h:752

config.h
Configuration structs with defaults.

generation_result.h
Generation output with metrics.

i_hook_handler.h
Hook dispatch interface injected into engine subsystems.

logprob_result.h
Per-token log-probability evaluation result.

message.h
Message struct for conversation history.

entropic
Activate model on GPU (WARM → ACTIVE).
Definition bundled_models.h:20

entropic::BackendCapability
BackendCapability
Capabilities that an inference backend may or may not support.
Definition backend_capability.h:33

entropic::BudgetMode::tokens
@ tokens
Gate on generated tokens since the last tool call.

entropic::ModelState
ModelState
C++ enum class for model VRAM lifecycle states.
Definition config.h:96

entropic::ModelState::ACTIVE
@ ACTIVE
GPU layers loaded, full speed.

entropic::ModelState::COLD
@ COLD
On disk only, no RAM consumed.

entropic::BackendInfo
Backend metadata for introspection.
Definition backend_capability.h:58

entropic::GenerationParams
Generation parameters for a single inference call.
Definition config.h:302

entropic::GenerationResult
Result of a single generation call.
Definition generation_result.h:30

entropic::LogprobResult
Per-token log-probability evaluation result.
Definition logprob_result.h:36

entropic::ModelConfig
Model configuration for a single tier.
Definition config.h:148

entropic::ModelConfig::context_length
int context_length
Context window size (512–131072)
Definition config.h:151