llama_ros/llama_8hpp_source.html

// MIT License

//

// Copyright (c) 2023 Miguel Ángel González Santamarta

//

// Permission is hereby granted, free of charge, to any person obtaining a copy

// of this software and associated documentation files (the "Software"), to deal

// in the Software without restriction, including without limitation the rights

// to use, copy, modify, merge, publish, distribute, sublicense, and/or sell

// copies of the Software, and to permit persons to whom the Software is

// furnished to do so, subject to the following conditions:

//

// The above copyright notice and this permission notice shall be included in

// all copies or substantial portions of the Software.

//

// THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR

// IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,

// FITNESS FOR A PARTICULAR PURPOSE AND NONINFRINGEMENT. IN NO EVENT SHALL THE

// AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER

// LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING FROM,

// OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN THE

// SOFTWARE.


#ifndef LLAMA_ROS__LLAMA_HPP

#define LLAMA_ROS__LLAMA_HPP


#include <functional>

#include <memory>

#include <mutex>

#include <string>

#include <unordered_map>

#include <vector>


#include "common.h"

#include "json.hpp"

#include "llama.h"

#include "sampling.h"


#include "llama_utils/spinner.hpp"


namespace llama_ros {


// llama structs


struct TokenProb {

  llama_token token;

  float probability;

};


struct LoRA {

  int id;

  std::string path;

  float scale;

};


struct CompletionOutput {

  std::vector<TokenProb> probs;

  llama_token token;

};


enum StopType {

  NO_STOP,

  FULL_STOP,

  PARTIAL_STOP,

  CANCEL,

  ABORT,

};


struct ResponseOutput {

  std::vector<CompletionOutput> completions;

  StopType stop;

};


struct EmbeddingsOuput {

  std::vector<float> embeddings;

  int32_t n_tokens;

};


struct Metadata {


  struct GeneralInfo {

    std::string architecture;

    uint32_t quantization_version;

    uint32_t alignment;


    std::string name;

    std::string author;

    std::string version;

    std::string organization;


    std::string basename;

    std::string finetune;

    std::string description;

    std::string quantized_by;

    std::string size_label;


    std::string license;

    std::string license_name;

    std::string license_link;


    std::string url;

    std::string repo_url;

    std::string doi;

    std::string uuid;


    std::vector<std::string> tags;

    std::vector<std::string> languages;

    std::vector<std::string> datasets;

    std::string file_type;

  };


  struct AttentionInfo {

    uint64_t head_count;

    uint64_t head_count_kv;


    float max_alibi_bias;

    float clamp_kqv;


    float layer_norm_epsilon;

    float layer_norm_rms_epsilon;


    uint32_t key_length;

    uint32_t value_length;

  };


  struct RoPEInfo {

    uint64_t dimension_count;

    float freq_base;


    std::string scaling_type;

    float scaling_factor;

    uint32_t scaling_original_context_length;

    bool scaling_finetuned;

  };


  struct ModelInfo {

    uint64_t context_length;

    uint64_t embedding_length;

    uint64_t block_count;

    uint64_t feed_forward_length;


    bool use_parallel_residual;

    std::string tensor_data_layout;


    uint32_t expert_count;

    uint32_t expert_used_count;


    AttentionInfo attention;

    RoPEInfo rope;

  };


  struct TokenizerInfo {

    std::string model;


    uint32_t bos_token_id;

    uint32_t eos_token_id;

    uint32_t unknown_token_id;

    uint32_t padding_token_id;

    uint32_t separator_token_id;

    bool add_bos_token;


    std::string chat_template;

  };


  GeneralInfo general;

  ModelInfo model;

  TokenizerInfo tokenizer;

};


using GenerateResponseCallback = std::function<void(struct CompletionOutput)>;


class Llama {


public:

  Llama(const struct common_params &params, std::string system_prompt = "",

        bool initial_reset = true);

  virtual ~Llama();


  std::vector<llama_token> tokenize(const std::string &text, bool add_bos,

                                    bool special = false);

  std::string detokenize(const std::vector<llama_token> &tokens);


  virtual void reset();

  void cancel();


  std::string format_chat_prompt(std::vector<struct common_chat_msg> chat_msgs,

                                 bool add_ass);

  std::vector<struct LoRA> list_loras();

  void update_loras(std::vector<struct LoRA> loras);


  std::vector<llama_token>

  truncate_tokens(const std::vector<llama_token> &tokens, int limit_size,

                  bool add_eos = true);

  struct EmbeddingsOuput generate_embeddings(const std::string &input_prompt,

                                             int normalization = 2);

  struct EmbeddingsOuput

  generate_embeddings(const std::vector<llama_token> &tokens,

                      int normalization = 2);

  float rank_document(const std::string &query, const std::string &document);

  std::vector<float> rank_documents(const std::string &query,

                                    const std::vector<std::string> &documents);


  struct ResponseOutput

  generate_response(const std::string &input_prompt,

                    struct common_params_sampling sparams,

                    GenerateResponseCallback callbakc = nullptr,

                    std::vector<std::string> stop = {});

  struct ResponseOutput

  generate_response(const std::string &input_prompt,

                    GenerateResponseCallback callbakc = nullptr,

                    std::vector<std::string> stop = {});


  const struct llama_context *get_ctx() { return this->ctx; }

  const struct llama_model *get_model() { return this->model; }


  const struct llama_vocab *get_vocab() {

    return llama_model_get_vocab(this->model);

  }


  int get_n_ctx() { return llama_n_ctx(this->ctx); }

  int get_n_ctx_train() { return llama_model_n_ctx_train(this->model); }

  int get_n_embd() { return llama_model_n_embd(this->model); }

  int get_n_vocab() { return llama_vocab_n_tokens(this->get_vocab()); }


  std::string get_metadata(const std::string &key, size_t size);

  std::string get_metadata(const std::string &model_name,

                           const std::string &key, size_t size);

  int get_int_metadata(const std::string &key, size_t size);

  int get_int_metadata(const std::string &model_name, const std::string &key,

                       size_t size);

  float get_float_metadata(const std::string &key, size_t size);

  float get_float_metadata(const std::string &model_name,

                           const std::string &key, size_t size);

  struct Metadata get_metadata();


  bool is_embedding() { return this->params.embedding; }

  bool is_reranking() { return this->params.reranking; }


  bool add_bos_token() { return llama_vocab_get_add_bos(this->get_vocab()); }


  bool is_eog() {

    return llama_vocab_is_eog(this->get_vocab(),

                              common_sampler_last(this->sampler));

  }


  llama_token get_token_eos() { return llama_vocab_eos(this->get_vocab()); }

  llama_token get_token_bos() { return llama_vocab_bos(this->get_vocab()); }

  llama_token get_token_sep() { return llama_vocab_sep(this->get_vocab()); }


protected:

  struct common_params params;


  // model

  struct common_init_result llama_init;

  struct llama_context *ctx;

  struct llama_model *model;

  std::vector<common_adapter_lora_info> lora_adapters;

  struct common_sampler *sampler;

  struct ggml_threadpool *threadpool;

  struct ggml_threadpool *threadpool_batch;


  // aux

  std::string system_prompt;

  bool canceled;

  llama_utils::Spinner spinner;

  std::vector<llama_token> prompt_tokens;


  // eval

  int32_t n_past;

  int32_t n_consumed;

  int32_t ga_i;


  virtual void load_prompt(const std::string &input_prompt, bool add_pfx,

                           bool add_sfx);


  StopType

  find_stop(std::vector<struct CompletionOutput> completion_result_list,

            std::vector<std::string> stopping_words);

  StopType

  find_stop_word(std::vector<struct CompletionOutput> completion_result_list,

                 std::string stopping_word);


  bool eval_system_prompt();

  virtual bool eval_prompt();

  bool eval_prompt(std::vector<llama_token> prompt_tokens);

  bool eval_token(llama_token token);

  bool eval(std::vector<llama_token> tokens);

  virtual bool eval(struct llama_batch batch);


  std::vector<struct TokenProb> get_probs();

  struct CompletionOutput sample();


private:

  // lock

  std::recursive_mutex mutex;

};


} // namespace llama_ros


#endif

llama_ros::Llama::find_stop
StopType find_stop(std::vector< struct CompletionOutput > completion_result_list, std::vector< std::string > stopping_words)
Definition llama.cpp:798

llama_ros::Llama::detokenize
std::string detokenize(const std::vector< llama_token > &tokens)
Definition llama.cpp:389

llama_ros::Llama::get_n_embd
int get_n_embd()
Definition llama.hpp:218

llama_ros::Llama::get_n_ctx
int get_n_ctx()
Definition llama.hpp:216

llama_ros::Llama::n_consumed
int32_t n_consumed
Definition llama.hpp:264

llama_ros::Llama::system_prompt
std::string system_prompt
Definition llama.hpp:257

llama_ros::Llama::ga_i
int32_t ga_i
Definition llama.hpp:265

llama_ros::Llama::get_metadata
struct Metadata get_metadata()
Definition llama.cpp:235

llama_ros::Llama::get_token_eos
llama_token get_token_eos()
Definition llama.hpp:240

llama_ros::Llama::lora_adapters
std::vector< common_adapter_lora_info > lora_adapters
Definition llama.hpp:251

llama_ros::Llama::Llama
Llama(const struct common_params &params, std::string system_prompt="", bool initial_reset=true)
Definition llama.cpp:37

llama_ros::Llama::generate_embeddings
struct EmbeddingsOuput generate_embeddings(const std::string &input_prompt, int normalization=2)
Definition llama.cpp:476

llama_ros::Llama::get_int_metadata
int get_int_metadata(const std::string &key, size_t size)
Definition llama.cpp:213

llama_ros::Llama::find_stop_word
StopType find_stop_word(std::vector< struct CompletionOutput > completion_result_list, std::string stopping_word)
Definition llama.cpp:871

llama_ros::Llama::get_vocab
const struct llama_vocab * get_vocab()
Definition llama.hpp:212

llama_ros::Llama::sampler
struct common_sampler * sampler
Definition llama.hpp:252

llama_ros::Llama::tokenize
std::vector< llama_token > tokenize(const std::string &text, bool add_bos, bool special=false)
Definition llama.cpp:383

llama_ros::Llama::n_past
int32_t n_past
Definition llama.hpp:263

llama_ros::Llama::mutex
std::recursive_mutex mutex
Definition llama.hpp:289

llama_ros::Llama::cancel
void cancel()
Definition llama.cpp:401

llama_ros::Llama::is_embedding
bool is_embedding()
Definition llama.hpp:232

llama_ros::Llama::get_model
const struct llama_model * get_model()
Definition llama.hpp:211

llama_ros::Llama::threadpool_batch
struct ggml_threadpool * threadpool_batch
Definition llama.hpp:254

llama_ros::Llama::rank_documents
std::vector< float > rank_documents(const std::string &query, const std::vector< std::string > &documents)
Definition llama.cpp:542

llama_ros::Llama::get_token_bos
llama_token get_token_bos()
Definition llama.hpp:241

llama_ros::Llama::get_n_vocab
int get_n_vocab()
Definition llama.hpp:219

llama_ros::Llama::reset
virtual void reset()
Definition llama.cpp:160

llama_ros::Llama::get_float_metadata
float get_float_metadata(const std::string &key, size_t size)
Definition llama.cpp:224

llama_ros::Llama::canceled
bool canceled
Definition llama.hpp:258

llama_ros::Llama::truncate_tokens
std::vector< llama_token > truncate_tokens(const std::vector< llama_token > &tokens, int limit_size, bool add_eos=true)
Definition llama.cpp:485

llama_ros::Llama::model
struct llama_model * model
Definition llama.hpp:250

llama_ros::Llama::load_prompt
virtual void load_prompt(const std::string &input_prompt, bool add_pfx, bool add_sfx)
Definition llama.cpp:746

llama_ros::Llama::prompt_tokens
std::vector< llama_token > prompt_tokens
Definition llama.hpp:260

llama_ros::Llama::llama_init
struct common_init_result llama_init
Definition llama.hpp:248

llama_ros::Llama::eval_system_prompt
bool eval_system_prompt()
Definition llama.cpp:905

llama_ros::Llama::is_reranking
bool is_reranking()
Definition llama.hpp:233

llama_ros::Llama::params
struct common_params params
Definition llama.hpp:245

llama_ros::Llama::eval_prompt
virtual bool eval_prompt()
Definition llama.cpp:920

llama_ros::Llama::list_loras
std::vector< struct LoRA > list_loras()
Definition llama.cpp:576

llama_ros::Llama::add_bos_token
bool add_bos_token()
Definition llama.hpp:235

llama_ros::Llama::eval
bool eval(std::vector< llama_token > tokens)
Definition llama.cpp:952

llama_ros::Llama::eval_token
bool eval_token(llama_token token)
Definition llama.cpp:948

llama_ros::Llama::~Llama
virtual ~Llama()
Definition llama.cpp:134

llama_ros::Llama::spinner
llama_utils::Spinner spinner
Definition llama.hpp:259

llama_ros::Llama::update_loras
void update_loras(std::vector< struct LoRA > loras)
Definition llama.cpp:596

llama_ros::Llama::generate_response
struct ResponseOutput generate_response(const std::string &input_prompt, struct common_params_sampling sparams, GenerateResponseCallback callbakc=nullptr, std::vector< std::string > stop={})
Definition llama.cpp:642

llama_ros::Llama::get_token_sep
llama_token get_token_sep()
Definition llama.hpp:242

llama_ros::Llama::get_ctx
const struct llama_context * get_ctx()
Definition llama.hpp:210

llama_ros::Llama::get_n_ctx_train
int get_n_ctx_train()
Definition llama.hpp:217

llama_ros::Llama::get_probs
std::vector< struct TokenProb > get_probs()
Definition llama.cpp:1043

llama_ros::Llama::ctx
struct llama_context * ctx
Definition llama.hpp:249

llama_ros::Llama::sample
struct CompletionOutput sample()
Definition llama.cpp:1060

llama_ros::Llama::is_eog
bool is_eog()
Definition llama.hpp:236

llama_ros::Llama::format_chat_prompt
std::string format_chat_prompt(std::vector< struct common_chat_msg > chat_msgs, bool add_ass)
Definition llama.cpp:566

llama_ros::Llama::threadpool
struct ggml_threadpool * threadpool
Definition llama.hpp:253

llama_ros::Llama::rank_document
float rank_document(const std::string &query, const std::string &document)
Definition llama.cpp:509

llama_utils::Spinner
Definition spinner.hpp:31

llama_ros
Definition llama.hpp:40

llama_ros::GenerateResponseCallback
std::function< void(struct CompletionOutput)> GenerateResponseCallback
Definition llama.hpp:167

llama_ros::StopType
StopType
Definition llama.hpp:59

llama_ros::CANCEL
@ CANCEL
Definition llama.hpp:63

llama_ros::PARTIAL_STOP
@ PARTIAL_STOP
Definition llama.hpp:62

llama_ros::ABORT
@ ABORT
Definition llama.hpp:64

llama_ros::NO_STOP
@ NO_STOP
Definition llama.hpp:60

llama_ros::FULL_STOP
@ FULL_STOP
Definition llama.hpp:61

spinner.hpp

llama_ros::CompletionOutput
Definition llama.hpp:54

llama_ros::CompletionOutput::token
llama_token token
Definition llama.hpp:56

llama_ros::CompletionOutput::probs
std::vector< TokenProb > probs
Definition llama.hpp:55

llama_ros::EmbeddingsOuput
Definition llama.hpp:72

llama_ros::EmbeddingsOuput::embeddings
std::vector< float > embeddings
Definition llama.hpp:73

llama_ros::EmbeddingsOuput::n_tokens
int32_t n_tokens
Definition llama.hpp:74

llama_ros::LoRA
Definition llama.hpp:48

llama_ros::LoRA::scale
float scale
Definition llama.hpp:51

llama_ros::LoRA::path
std::string path
Definition llama.hpp:50

llama_ros::LoRA::id
int id
Definition llama.hpp:49

llama_ros::Metadata::AttentionInfo
Definition llama.hpp:109

llama_ros::Metadata::AttentionInfo::layer_norm_rms_epsilon
float layer_norm_rms_epsilon
Definition llama.hpp:117

llama_ros::Metadata::AttentionInfo::value_length
uint32_t value_length
Definition llama.hpp:120

llama_ros::Metadata::AttentionInfo::max_alibi_bias
float max_alibi_bias
Definition llama.hpp:113

llama_ros::Metadata::AttentionInfo::head_count_kv
uint64_t head_count_kv
Definition llama.hpp:111

llama_ros::Metadata::AttentionInfo::clamp_kqv
float clamp_kqv
Definition llama.hpp:114

llama_ros::Metadata::AttentionInfo::key_length
uint32_t key_length
Definition llama.hpp:119

llama_ros::Metadata::AttentionInfo::layer_norm_epsilon
float layer_norm_epsilon
Definition llama.hpp:116

llama_ros::Metadata::AttentionInfo::head_count
uint64_t head_count
Definition llama.hpp:110

llama_ros::Metadata::GeneralInfo
Definition llama.hpp:78

llama_ros::Metadata::GeneralInfo::tags
std::vector< std::string > tags
Definition llama.hpp:103

llama_ros::Metadata::GeneralInfo::languages
std::vector< std::string > languages
Definition llama.hpp:104

llama_ros::Metadata::GeneralInfo::size_label
std::string size_label
Definition llama.hpp:92

llama_ros::Metadata::GeneralInfo::file_type
std::string file_type
Definition llama.hpp:106

llama_ros::Metadata::GeneralInfo::finetune
std::string finetune
Definition llama.hpp:89

llama_ros::Metadata::GeneralInfo::architecture
std::string architecture
Definition llama.hpp:79

llama_ros::Metadata::GeneralInfo::quantization_version
uint32_t quantization_version
Definition llama.hpp:80

llama_ros::Metadata::GeneralInfo::url
std::string url
Definition llama.hpp:98

llama_ros::Metadata::GeneralInfo::repo_url
std::string repo_url
Definition llama.hpp:99

llama_ros::Metadata::GeneralInfo::basename
std::string basename
Definition llama.hpp:88

llama_ros::Metadata::GeneralInfo::doi
std::string doi
Definition llama.hpp:100

llama_ros::Metadata::GeneralInfo::organization
std::string organization
Definition llama.hpp:86

llama_ros::Metadata::GeneralInfo::datasets
std::vector< std::string > datasets
Definition llama.hpp:105

llama_ros::Metadata::GeneralInfo::version
std::string version
Definition llama.hpp:85

llama_ros::Metadata::GeneralInfo::quantized_by
std::string quantized_by
Definition llama.hpp:91

llama_ros::Metadata::GeneralInfo::license_link
std::string license_link
Definition llama.hpp:96

llama_ros::Metadata::GeneralInfo::license_name
std::string license_name
Definition llama.hpp:95

llama_ros::Metadata::GeneralInfo::uuid
std::string uuid
Definition llama.hpp:101

llama_ros::Metadata::GeneralInfo::alignment
uint32_t alignment
Definition llama.hpp:81

llama_ros::Metadata::GeneralInfo::author
std::string author
Definition llama.hpp:84

llama_ros::Metadata::GeneralInfo::license
std::string license
Definition llama.hpp:94

llama_ros::Metadata::GeneralInfo::description
std::string description
Definition llama.hpp:90

llama_ros::Metadata::GeneralInfo::name
std::string name
Definition llama.hpp:83

llama_ros::Metadata::ModelInfo
Definition llama.hpp:133

llama_ros::Metadata::ModelInfo::embedding_length
uint64_t embedding_length
Definition llama.hpp:135

llama_ros::Metadata::ModelInfo::rope
RoPEInfo rope
Definition llama.hpp:146

llama_ros::Metadata::ModelInfo::context_length
uint64_t context_length
Definition llama.hpp:134

llama_ros::Metadata::ModelInfo::expert_count
uint32_t expert_count
Definition llama.hpp:142

llama_ros::Metadata::ModelInfo::use_parallel_residual
bool use_parallel_residual
Definition llama.hpp:139

llama_ros::Metadata::ModelInfo::expert_used_count
uint32_t expert_used_count
Definition llama.hpp:143

llama_ros::Metadata::ModelInfo::attention
AttentionInfo attention
Definition llama.hpp:145

llama_ros::Metadata::ModelInfo::block_count
uint64_t block_count
Definition llama.hpp:136

llama_ros::Metadata::ModelInfo::tensor_data_layout
std::string tensor_data_layout
Definition llama.hpp:140

llama_ros::Metadata::ModelInfo::feed_forward_length
uint64_t feed_forward_length
Definition llama.hpp:137

llama_ros::Metadata::RoPEInfo
Definition llama.hpp:123

llama_ros::Metadata::RoPEInfo::scaling_type
std::string scaling_type
Definition llama.hpp:127

llama_ros::Metadata::RoPEInfo::freq_base
float freq_base
Definition llama.hpp:125

llama_ros::Metadata::RoPEInfo::scaling_factor
float scaling_factor
Definition llama.hpp:128

llama_ros::Metadata::RoPEInfo::scaling_original_context_length
uint32_t scaling_original_context_length
Definition llama.hpp:129

llama_ros::Metadata::RoPEInfo::dimension_count
uint64_t dimension_count
Definition llama.hpp:124

llama_ros::Metadata::RoPEInfo::scaling_finetuned
bool scaling_finetuned
Definition llama.hpp:130

llama_ros::Metadata::TokenizerInfo
Definition llama.hpp:149

llama_ros::Metadata::TokenizerInfo::eos_token_id
uint32_t eos_token_id
Definition llama.hpp:153

llama_ros::Metadata::TokenizerInfo::add_bos_token
bool add_bos_token
Definition llama.hpp:157

llama_ros::Metadata::TokenizerInfo::bos_token_id
uint32_t bos_token_id
Definition llama.hpp:152

llama_ros::Metadata::TokenizerInfo::padding_token_id
uint32_t padding_token_id
Definition llama.hpp:155

llama_ros::Metadata::TokenizerInfo::model
std::string model
Definition llama.hpp:150

llama_ros::Metadata::TokenizerInfo::separator_token_id
uint32_t separator_token_id
Definition llama.hpp:156

llama_ros::Metadata::TokenizerInfo::chat_template
std::string chat_template
Definition llama.hpp:159

llama_ros::Metadata::TokenizerInfo::unknown_token_id
uint32_t unknown_token_id
Definition llama.hpp:154

llama_ros::Metadata
Definition llama.hpp:77

llama_ros::Metadata::model
ModelInfo model
Definition llama.hpp:163

llama_ros::Metadata::general
GeneralInfo general
Definition llama.hpp:162

llama_ros::Metadata::tokenizer
TokenizerInfo tokenizer
Definition llama.hpp:164

llama_ros::ResponseOutput
Definition llama.hpp:67

llama_ros::ResponseOutput::completions
std::vector< CompletionOutput > completions
Definition llama.hpp:68

llama_ros::ResponseOutput::stop
StopType stop
Definition llama.hpp:69

llama_ros::TokenProb
Definition llama.hpp:43

llama_ros::TokenProb::token
llama_token token
Definition llama.hpp:44

llama_ros::TokenProb::probability
float probability
Definition llama.hpp:45