×
请登录
账号
密码
登录 Use it
博客
随笔
网盘
建站
资源
标签
毒鸡汤
程序员导航
登录
注册
基于 Flink+Iceberg 构建企业级实时数据湖
Apache Flink 是大数据领域非常流行的流批统一的计算引擎,数据湖是顺应云时代发展潮流的新型技术架构。那么当 Apache Flink 遇见数据湖时,会碰撞出什么样的火花呢?本次分享主要包括以下核心内容: 数据湖的相关背景介绍; 经典业务场景介绍; 为什么选择 Apache Iceberg; ....
star2017
博客
1年前
2023
0
图解当前最强语言模型 BERT:NLP 是如何攻克迁移学习的?
作者:Jay Alammar 机器之心编译 参与:Panda 前段时间,谷歌发布了基于双向 Transformer 的大规模预训练语言模型 BERT,该预训练模型能高效抽取文本信息并应用于各种 NLP 任务,该研究凭借预训练模型刷新了 11 项 NLP 任务的当前最优性能记录。技术博主 Jay Al ....
star2017
博客
1年前
7335
0
Lucene 源码系列——BulkOperationPacked
原文链接: https://www.amazingkoala.com.cn/Lucene/yasuocunchu/2019/0213/31.html BulkOperation 类的子类 BulkOperationPacked,提供了很多对整数(integers)的压缩存储方法,其压缩存储过程其 ....
star2017
博客
1年前
1262
0
有赞搜索系统的技术内幕
转载自 有赞技术团队博客 上文说到有赞搜索系统的架构演进,为了支撑不断演进的技术架构,除了 Elasticsearch 的维护优化之外,我们也开发了上层的中间件来应对不断提高的稳定性和性能要求。 Elasticsearch 的检索执行效率可以表示为: _O(num_of_files _logN)* ....
star2017
博客
1年前
8528
0
AIQ - 架构 | Kafka 服务端 网络层 reactor 架构
1. Reactor 模式 Kafka 网络层采用的是 Reactor 模式,是一种基于事件驱动模式。对应于 Java 的 NIO 提供了 Reactor 模式的 API.常见的单线程 Java NIO 的线程模型为 [图片] 流程: 首先创建 ServerSocketChannel 对象并在 Se ....
star2017
博客
1年前
914
0
前沿重器 [2] | 美团搜索理解和召回
公众号 欢迎关注:CS 的陋室 搜索做了很多年,但是在各种技术革新下也还总有东西做,总有提升点,虽然现在媒体炒的少了,但是至今仍然各种公司仍花费大力气来做这个搜索。这次和大家介绍的东西,来自于美团技术团队分享的一篇文章,这篇文章讨论了搜索的理解和召回,有意思的是他还对整个他们的现状分析进行了讲解,这 ....
star2017
博客
1年前
3507
0
Apache Flink OLAP 引擎性能优化及应用
[图片] 分享嘉宾:贺小令 阿里巴巴技术专家 编辑整理:王吉东 内容来源:Flink Forward ASIA 出品平台:DataFun 导读: 本次分享的主题为 Apache Flink 新场景——OLAP 引擎,主要内容包括: 背景介绍 Apache Flink OLAP 引擎 案例介绍 未来计 ....
star2017
博客
1年前
1875
0
【布道师系列】周晓凌——乘风而来,利用数据科学平台解决运筹学问题
[图片] DataCanvas 布道师团队成员 首席解决方案架构师 周晓凌 此番呈上 利用数据科学平台解决运筹学问题 不仅仅是机器学习 近年来机器学习与深度学习快速发展,极大地吸引了人们的眼球,甚至有将人工智能(AI)等价于深度学习的趋势。然而人工智能的范畴相较于机器学习与深度学习要大得多,吴恩达在 ....
star2017
博客
1年前
3747
0
图文并茂带你了解依存句法分析
作者: 龚俊民(昵称: 除夕) 学校: 新南威尔士大学 单位:Vivo AI LAB 算法实习生 方向: 自然语言处理和可解释学习 知乎: https://www.zhihu.com/people/gong-jun-min-74 [图片] 前言: 上一期我们讲了成分句法分析,它相当于考虑广义上的嵌套 ....
star2017
博客
1年前
1904
0
AIQ - 深度 | 知乎高赞:久居一线城市都有什么错觉?
本文来源于微信公众号:LinkedIn 微信 ID:LinkedIn-China LinkedIn 领英是全球知名的职业社交网站,每个《财富》500 强公司均有高管加入。 《北京女子图鉴》里面有一句经典的台词:北京就是一个标准不一的地方,你想要什么标准,就按照什么标准去努力。 这句话,真的太鸡血了。 ....
star2017
博客
1年前
4860
0
一次生产系统 Full GC 问题分析与排查总结
[图片] 一次生产系统 Full GC 问题分析与排查总结 背景 最近某线上业务系统生产环境频频 CPU 使用率过低,频繁告警,通过重启可以缓解,但是过了一段时间又会继续预警,线上两个服务节点相继出现 CPU 资源紧张,导致服务器卡死不可用,通过告警信息可以看到以下问题: [图片] 从上图可以看到, ....
star2017
博客
1年前
1331
0
线下 auc 涨,线上 ctr/cpm 跌的原因和解决办法
“ 这两年深度模型大火之后,各个团队都卯足了劲把网络规模做大做深,花了很大力气好不容易离线 auc 涨了不少,上线一看效果 ctr 和 cpm 反而下降。本文例举几种可能的原因和解决办法。” 作者:辛俊波 腾讯高级研究员 专注推荐/广告/深度学习原文链接:https://www.zhihu.com/ ....
star2017
博客
1年前
10221
0
百度 5G+ 智能时代的多模搜索技术
分享嘉宾:李国洪 百度资深研发工程师 编辑整理:李斌 出品平台:DataFunTalk 导读: 2010 年随着 iphone4 的发布,智能手机被广泛使用,从大学生到老人小孩,移动互联网的发展如火如荼。近两年,5G 技术让下载速度变得越来越快,相较于传统的文本搜索技术,语音搜索和图片搜索等新型搜索 ....
star2017
博客
1年前
8618
0
特征工程|文本特征处理的四大类主流方法
以下文章来源于搜索与推荐 Wiki ,作者 Thinkgamer 文本特征在内容平台内使用的场景和方式更多,但并不等于说其在其他形式的平台中无用户之地,比如:电商平台中的商品标题、商品介绍、评论等,商品平台中视频标题、视频介绍、评论等。 利用文本数据可以做的事情很多,包括但不局限于:关键词提取、文本 ....
star2017
博客
1年前
433
0
推荐系统遇上深度学习 (十一)-- 神经协同过滤 NCF 原理及实战
作者: 石晓文,中国人民大学信息学院在读研究生 个人公众号:小小挖掘机(ID:wAIsjwj) 好久没更新该系列了,最近看到了一篇关于神经协同过滤的论文,感觉还不错,跟大家分享下。 论文地址:https://www.comp.nus.edu.sg/~xiangnan/papers/ncf.pdf 1 ....
star2017
博客
1年前
9004
0
机器学习工程化模型部署的几种方式总结
作者: 黄鸿波 在企业中,我们做模型的目的就是为了能够让它来更好的解决产品在实际生产过程中所遇到的具体的问题,而模型训练好之后,下一步要做的就是将其部署上线。AI 对于很多企业来讲是一个新的领域,所以很多企业在训练好一个模型之后,对于模型部署方面总是会显得束手无策。 在企业中,我们所做的 AI 项目 ....
star2017
博客
1年前
6619
0
【贝壳找房】贝壳搜索平台实时流总体架构设计
2018-12-01 原创:孙要飞 背景:2017 年底到 2018 年初,公司战略调整,业务量及业务复杂度预期会有较大增长;面对新的挑战,搜索团队对整个搜索平台进行了重写,针对旧系统的一些问题,主要从可配置,异步化,并发,可扩展,全链路追踪,业务隔离等方面进行了设计。 1. 总体架构 如下图所示, ....
star2017
博客
1年前
3460
0
Lucene 源码系列——BytesRefHash
阅读原文 BytesRefHash 类是专门为 BytesRef 对象作优化的一种类似 hashMap 的数据结构,该类的主要用途就是将所有的 BytesRef 对象存储到一个连续的存储空间中,并且使得能在查询阶段达到 0(1)的时间复杂度。 BytesRefHash 的一些变量 byte[] [] ....
star2017
博客
1年前
1498
0
有赞搜索系统的架构演进
转载自 有赞技术博客 有赞搜索平台是一个面向公司内部各项搜索应用以及部分 NoSQL 存储应用的 PaaS 产品,帮助应用合理高效的支持检索和多维过滤功能,有赞搜索平台目前支持了大大小小一百多个检索业务,服务于近百亿数据。 在为传统的搜索应用提供高级检索和大数据交互能力的同时,有赞搜索平台还需要为其 ....
star2017
博客
1年前
10351
0
Elasticsearch 之 commit point | Segment | refresh | flush 索引分片内部原理
基本概念 Segments in Lucene 众所周知,Elasticsearch 存储的基本单元是 shard, ES 中一个 Index 可能分为多个 shard, 事实上每个 shard 都是一个 Lucence 的 Index,并且每个 Lucence Index 由多个 Segment ....
star2017
博客
1年前
3327
0
1
...
454
455
456
...
464
本文目录
热门标签
程序员导航
热门文章
1.
如何学习Python数据科学(2018)
2.
31个与大数据有关的非常不错的资源和文章(附全链接)
3.
这可能是人工智能、机器学习和大数据领域覆盖最全的一份速查表
4.
onlyoffice 20并发限制处理,up to 20 maximum
5.
史上最全的“大数据”学习资源(上)
6.
中文版onlyoffice/documentserver镜像制作
阿里云新老用户最新优惠
阿里云新老用户最新优惠
最新发布
1.
简单Dify调用MCP服务笔记
2.
主流向量数据库一览
3.
docker 镜像没安装vi可以使用命令修改~/.bashrc
4.
Dify大模型集成工具本地部署运行笔记
5.
MongoDB查询、索引、修改、删除字段
6.
CompletableFuture 异步多线程
最新评论
签到
?
签到
签到
签到,学习
签到