️公众号月伴飞鱼️
  • 关于我
  • 联系作者
  • 关于网站
  • 我的掘金
  • 我的公众号
  • AI相关
    • AI实践
      • 大模型微调
      • 大模型知识蒸馏
    • AI工具
      • DeepSeek
      • HuggingFace
    • AI技术
      • A2A
      • Agent
      • Function Call
      • MCP
      • RAG
      • 提示词工程
    • AI框架
      • ADK
      • DIFY
        • DIFY父子模式
      • GraphRAG
      • LangChain4j
      • LangChain
      • LangFlow
      • LlamaIndex
      • Spring AI
        • MCP集成本地文件
        • 集成DeepSeek
    • 大模型基础
  • Java框架
    • Apollo
    • Aviator
    • Caffeine
    • Canal
    • Drools
    • Guava
    • MyBatis
    • Nacos
    • Seata
    • Sentinel
    • ShardingSphere
  • Python框架
    • Conda
    • JUPYTER
  • Spring框架
    • Eureka
    • Feign
    • Hystrix
    • Spring
  • Web3相关
    • MetaMask
    • 以太坊
    • 区块链
  • 业务相关
    • 优惠券业务
    • 广告业务
    • 推荐业务
    • 用户增长
  • 中间件
    • Dubbo
    • Elasticsearch
    • Netty
    • Solr
    • ZooKeeper
  • 代码整洁
    • CodeReview
    • Redis开发规范
    • 代码重构
  • 公众号文章
    • AI文章
      • AI大模型如何提高上下文长度
      • AI大模型的Token到底指什么
      • AI提示词万能公式
      • DeepSeekV3低成本做出顶级AI
      • 为什么AI大模型训练离不开GPU
      • 免费开源模型大超市HuggingFace
      • 如何给AI大模型喂数据
      • 简单解释什么是AI智能体
    • Disruptor框架
    • ElasticSearch深度分页
    • KAFKA高可用
    • MySQL锁表
    • Redis延时队列
    • RocketMQ事务消息
    • RocketMQ延时消息
    • RocketMQ消息重试
    • RocketMQ负载均衡
    • RocketMQ顺序消息
    • Tomcat线程池
    • Web实时通信
    • 动态代理
    • 幂等性设计
    • 架构设计之CQRS
    • 正则表达式
    • 泛型策略模式
    • 缓存一致性
    • 缓存常见问题
    • 领域设计之仓储模式
    • 领域设计之聚合
  • 前端相关
    • CSS
    • React
    • Vue
    • 小程序
  • 基础知识
    • JVM
    • 分布式
    • 并发编程
    • 爬虫知识
    • 设计模式
  • 大数据相关
    • DataX
    • DolphinScheduler
    • Doris
    • Flink
    • Hadoop
    • Hive
    • SQOOP
    • Spark
    • 大数据基础
    • 数据血缘
  • 学习专栏
    • 22讲通关Go语言
    • 23讲搞定后台架构实战
    • RPC实战与核心原理
    • 从0开始学大数据
    • 从0开始学架构
    • 代码之丑
    • 大厂晋升指南
    • 如何成为学习高手
    • 如何设计一个秒杀系统
    • 架构设计面试精讲
    • 程序员工作法
    • 给程序员的职场情商课
    • 高并发架构实战课
  • 学习书籍
    • 人物书籍
      • 我在北京送快递
    • 历史书籍
      • 孙子兵法
      • 明朝那些事儿
    • 心理书籍
      • 认知觉醒
    • 技能书籍
      • 英语魔法师之语法俱乐部
      • 高效能人士的七个习惯
    • 文学书籍
      • 你当像鸟飞往你的山
      • 当下的力量
      • 活着
    • 编程书籍
      • Effective Java
      • HBase不睡觉书
      • Java并发编程实战
      • Java并发编程的艺术
      • Java开发手册
      • MySQL技术内幕
      • Redis设计与实现
      • 人月神话
      • 亿级流量网站架构核心技术
      • 从零开始读懂Web3
      • 代码整洁之道
      • 大型网站技术架构
      • 大型网站系统
      • 深入理解Java虚拟机
      • 程序员修炼之道
      • 程序员必读之软件架构
      • 重构改善既有代码的设计
  • 实战相关
    • AI实战
      • 商品检索
      • 本地RAG系统
      • 聊天记忆
    • CompletableFuture
    • Spring Event
    • SpringAI
    • Spring
  • 工具相关
    • Anki
    • Arthas
    • Hexo
    • Maven
    • Mermaid
    • PlantUML
  • 成长相关
    • 2025年度计划
    • 免费资料
    • 工作相关
    • 技术学习
    • 面试相关
  • 数据库
    • ClickHouse
    • DRDS
    • HBase
    • MongoDB
    • MySQL
    • Redis
    • SQLite
    • TIDB
  • 服务器
    • 1Panel
    • Docker
    • Nginx
    • Tomcat
    • 运维知识
  • 架构相关
    • DDD
    • 架构图
    • 架构学习
    • 系统保障
    • 系统性能
    • 系统设计
  • 框架相关
    • Antlr4
    • JWT
    • LiteFlow
    • MQTT
    • RPC框架
    • Redisson
    • SSE
    • Thrift
    • TransmittableThreadLocal
    • WebRTC
    • WebSocket
    • XXLJOB
  • 消息队列
    • KAFKA
    • RabbitMQ
    • RocketMQ
  • 源码相关
    • KAFKA
    • RocketMQ
    • Spring AI
    • SpringBoot
    • Spring
  • 系统设计
    • 12306系统
    • 优惠券系统
    • 广告系统
    • 推荐系统
    • 榜单系统
    • 消息队列
    • 登录系统
    • 短链系统
    • 社区系统
    • 秒杀系统
    • 红包系统
    • 订单系统
  • 编程语言
    • Go基础
    • Java基础
    • Python基础
  • 计算机基础
    • Linux
    • 操作系统
    • 数据结构
    • 网络基础
  • 认知相关
    • 保持人间清醒
    • 停止比较
    • 利己心态
    • 告别胡思乱想
    • 如何自律
    • 学习冥想
    • 摆脱内耗
    • 缓解负面情绪
    • 走出孤独
  • 面试题相关
    • JVM面试真题
    • MySQL面试真题
    • Redis面试真题
    • 并发编程面试真题
    • 操作系统面试真题
    • 数据结构面试真题
    • 计算机网络面试真题

数据血缘

数据血缘是指数据的全生命周期中,数据从产生、处理、加工、融合、流转到最终消亡,数据之间自然形成一种关系。 其记录了数据产生的链路关系,这些关系与人类的血缘关系比较相似,所以被成为数据血缘关系。 比如,数据A经过ETL处理生成了数据B: 那么我们就说数据A与B有着血缘关系,且数据A是数据B的上游数 ...
2025-03-10 大数据相关

大数据基础

基本概念 数据仓库: 抽取或导入结构化/半结构化数据,主要用于OLAP数据分析,支持管理决策。 Data Mesh数据网格: 采用DDD领域驱动设计思想。 数据治理拆分到各业务领域(类似微服务的服务拆分),分而治之,分别产出业务领域的数据产品。 Data Fabric: 元数据驱 ...
2024-12-22 大数据相关

DolphinScheduler

DolphinScheduler是一个分布式易扩展的可视化DAG工作流任务调度开源系统。 适用于企业级场景,提供了一个可视化操作任务,工作流和全生命周期数据处理过程的解决方案。 DolphinScheduler旨在解决复杂的大数据任务依赖关系,并为应用程序提供数据和各种 OPS 编排中的关系。 ...
2024-11-10 大数据相关

Hive

Hive 是一个构建在 Hadoop 之上的数据仓库。 它可以将结构化的数据文件映射成表,并提供类 SQL 查询功能。 用于查询的 SQL 语句会被转化为 MapReduce 作业,然后提交到 Hadoop 上运行。 数据类型 CREATE TABLE students( name ...
2024-11-10 大数据相关

Doris

Doris是由百度大数据研发,是一个现代化的MPP大规模并行处理的分析型数据库产品。 仅需亚秒级响应时间即可获得查询结果,有效地支持实时数据分析。 Apache Doris 的分布式架构非常简洁,易于运维,并且可以支持 10PB 以上的超大数据集。 Apache Doris 可以满足多种数据分 ...
2024-11-10 大数据相关

Flink

Apache Flink作为一款高吞吐量、低延迟的针对流数据和批数据的分布式实时处理引擎。 和Storm/Spark Streaming一样,定位于流式处理系统。 官网地址:https://flink.apache.org/ 官方文档(1.14.2版本):https://nightl ...
2024-06-23 大数据相关

DataX

DataX 是阿里云 DataWorks数据集成 的开源版本。 在阿里巴巴集团内被广泛使用的离线数据同步工具/平台。 DataX 实现了包括 MySQL、Oracle、OceanBase、SQLServer、Postgre、HDFS、Hive、ADS、HBase、TableStore(O ...
2024-06-23 大数据相关

Hadoop

Hadoop是Apache软件基金会下一个开源分布式计算平台。 以HDFS、MapReduce,Hadoop2.0加入了YARN,Yarn是资源调度框架,能够细粒度的管理和调度任务。 还能够支持其他的计算框架,比如Spark为核心的Hadoop为用户提供了系统底层细节透明的分布式基础架构。 H ...
2024-06-23 大数据相关

SQOOP

Apache Sqoop(SQL-To-Hadoop)项目旨在协助RDBMS(Relational Database Management System:关系型数据库管理系统)与Hadoop之间进行高效的大数据交流。 用户可以在 Sqoop 的帮助下,轻松地把关系型数据库的数据导入到 Hadoop ...
2024-06-23 大数据相关

Spark

Apache Spark是用于大规模数据处理的统一分析引擎。 基于内存计算,提高了在大数据环境下数据处理的实时性,同时保证了高容错性和高可伸缩性。 允许用户将Spark部署在大量硬件之上,形成集群。 官网地址:http://spark.apache.org/ 文档查看地址:https://sp ...
2024-06-23 大数据相关

©2019- 月伴飞鱼 | PV 180986 | UV 10079
微信搜索 月伴飞鱼 关注我 京ICP备2023027446号-2