全网整合营销服务商

电脑端+手机端+微信端=数据同步管理

免费咨询热线:400-708-3566

C++怎么实现一个布隆过滤器_C++中用位数组实现的高效概率性数据结构

布隆过滤器通过位数组和多哈希函数判断元素是否存在,允许误判但不漏判。使用std::vector实现位存储,插入时将哈希位置设为1,查询时全1则可能存在,否则一定不存在。参数由预期元素数和误判率计算得出,适用于去重、缓存防护等场景。

布隆过滤器是一种高效的空间节省型概率数据结构,用于判断一个元素是否存在于集合中。它允许一定的误判率(即可能把不存在的元素误判为存在),但不会将存在的元素漏判。C++ 中可以通过位数组和多个哈希函数来实现。

基本原理与设计思路

布隆过滤器的核心是一个长度为 m 的位数组,初始时所有位都为 0。同时定义 k 个独立的哈希函数,每个函数可以将输入元素映射到位数组的一个位置。

当插入一个元素时,用 k 个哈希函数计算出 k 个位置,并将位数组中这些位置设为 1。查询时同样计算 k 个位置,如果所有位置都为 1,则认为元素“可能存在”;只要有一个位置为 0,则元素“一定不存在”。

关键点:

  • 位数组节省内存
  • k 个哈希函数尽量独立均匀分布
  • 不支持删除操作(标准版本)
  • 存在误判率,但可通过参数调节

使用 std::vector 实现位数组

C++ 中 std::vector 是特化模板,底层以位为单位存储,非常适合实现布隆过滤器。

#include 
#include 
#include 
#include 

class BloomFilter {
private:
    std::vector bits;
    size_t size;
    size_t hashCount;

    // 简单哈希函数:使用 STL 的 hash 并结合乘法扰动
    size_t hash(const std::string& data, size_t seed) const {
        std::hash hasher;
        return (hasher(data) ^ seed) % size;
    }

public:
    BloomFilter(size_t expectedElements, double falsePositiveRate) {
        // 根据期望元素数和误判率计算最优参数
        size = static_cast(-expectedElements * log(falsePositiveRate) / (log(2) * log(2)));
        hashCount = static_cast(size * log(2) / expectedElements);
        size = std::max(size, static_cast(1));
        hashCount = std::max(hashCount, static_cast(1));

        bits.resize(size, false);
    }

    void insert(const std::string& data) {
        for (size_t i = 0; i < hashCount; ++i) {
            size_t pos = hash(data, i);
            bits[pos] = true;
        }
    }

    bool contains(const std::string& data) const {
        for (size_t i = 0; i < hashCount; ++i) {
            size_t pos = hash(data, i);
            if (!bits[pos]) {
                return false;  // 一定不存在
            }
        }
        return true;  // 可能存在
    }
};

使用示例与注意事项

下面是一个简单的使用例子:

#include 

int main() {
    BloomFilter bf(1000, 0.01);  // 支持约1000个元素,误判率1%

    bf.insert("apple");
    bf.insert("banana");

    std::cout << bf.contains("apple") << std::endl;     // 输出 1(可能存在)
    std::cout << bf.contains("grape") << std::endl;     // 很可能输出 0
    std::cout << bf.contains("orange") << std::endl;    // 可能误判为1

    return 0;
}

优化建议:

  • 可替换更高质量的哈希函数,如 MurmurHash、FNV 等提升分布均匀性
  • 对于固定字符串,可预计算部分哈希值
  • 生产环境可用 std::bitset(编译期确定大小)或自定义位数组提升性能
  • 注意 vector 的代理引用特性,避免意外行为

基本上就这些。布隆过滤器在去重、缓存穿透防护、爬虫URL记录等场景非常实用,C++ 实现简洁高效。


# c++  # app  # ai  # ios  # apple  # 爬虫  # stream  # 字符串  # bool  # 数据结构  # 不存在  # 是一个  # 设为  # 都为  # 是否存在  # 多哈  # 特化  # 是一种  # 多个  # 适用于 


相关文章: 表情包在线制作网站免费,表情包怎么弄?  昆明网站制作哪家好,昆明公租房申请网上登录入口?  如何快速查询网站的真实建站时间?  Android自定义listview布局实现上拉加载下拉刷新功能  移动端手机网站制作软件,掌上时代,移动端网站的谷歌SEO该如何做?  网站设计制作书签怎么做,怎样将网页添加到书签/主页书签/桌面?  购物网站制作公司有哪些,哪个购物网站比较好?  网站制作新手教程,新手建设一个网站需要注意些什么?    公众号网站制作网页,微信公众号怎么制作?  如何快速搭建高效香港服务器网站?  如何在Golang中引入测试模块_Golang测试包导入与使用实践  建站之星如何实现五合一智能建站与营销推广?  Swift中switch语句区间和元组模式匹配  建站VPS配置与SEO优化指南:关键词排名提升策略  建站主机选购指南:核心配置优化与品牌推荐方案  测试制作网站有哪些,测试性取向的权威测试或者网站?  网站设计制作企业有哪些,抖音官网主页怎么设置?  济南网站建设制作公司,室内设计网站一般都有哪些功能?  建站之星下载版如何获取与安装?  制作网页的网站有哪些,电脑上怎么做网页?  手机钓鱼网站怎么制作视频,怎样拦截钓鱼网站。怎么办?  实例解析Array和String方法  如何通过PHP快速构建高效问答网站功能?  如何快速搭建二级域名独立网站?  如何高效配置IIS服务器搭建网站?  如何获取免费开源的自助建站系统源码?  如何通过wdcp面板快速创建网站?  如何在阿里云完成域名注册与建站?  TestNG的testng.xml配置文件怎么写  建站之星免费模板:自助建站系统与智能响应式一键生成  如何用IIS7快速搭建并优化网站站点?  如何通过服务器快速搭建网站?完整步骤解析  北京网站制作网页,网站升级改版需要多久?  如何处理“XML格式不正确”错误 常见XML well-formed问题解决方法  微信小程序 五星评分(包括半颗星评分)实例代码  建站之星如何保障用户数据免受黑客入侵?  英语简历制作免费网站推荐,如何将简历翻译成英文?  北京网站制作公司哪家好一点,北京租房网站有哪些?  C#如何在一个XML文件中查找并替换文本内容  关于BootStrap modal 在IOS9中不能弹出的解决方法(IOS 9 bootstrap modal ios 9 noticework)  香港服务器网站搭建教程-电商部署、配置优化与安全稳定指南  重庆市网站制作公司,重庆招聘网站哪个好?  如何通过网站建站时间优化SEO与用户体验?  内网网站制作软件,内网的网站如何发布到外网?  如何配置FTP站点权限与安全设置?  C#怎么创建控制台应用 C# Console App项目创建方法  成都品牌网站制作公司,成都营业执照年报网上怎么办理?  保定网站制作方案定制,保定招聘的渠道有哪些?找工作的人一般都去哪里看招聘信息?  定制建站流程解析:需求评估与SEO优化功能开发指南 

您的项目需求

*请认真填写需求信息,我们会在24小时内与您取得联系。