Posts tagged with #学习笔记

一个小故事让你明白大数据在企业中的核心价值

March 25, 2025

这是一个虚构的小故事，旨在为大数据领域的初学者提供一些基础性的逻辑思维框架。尽管其内容可能不够严谨，但我认为首先构建一个基本框架是非常重要的，之后可以逐步完善和补充细节。

#大数据 #离线数仓 #数据分析 #数据仓库 #数据架构 #商业分析 #技术分享 #学习笔记

【离线数仓】拉链表的3种构建方案

September 25, 2024

前面说到了拉链表的应用场景，但在我们构建拉链表的时候，往往是从快照表中构建数据的，我接下来会基于介绍3种经验方案，用来提供给大家更多的参考。

#离线数仓 #快照表 #拉链表 #数据仓库 #数据架构 #大数据 #技术分享 #学习笔记

Hive表中数据倾斜的处理方法

September 23, 2024

在 Hive 表中，数据倾斜是大数据处理中的常见问题，尤其在执行 JOIN、GROUP BY、DISTINCT 等操作时，某些键值的数据分布不均匀，导致某些计算节点负载过重，任务执行变慢甚至失败。以下是处理 Hive 表数据倾斜的常见方法：

#Hive #大数据 #数据处理 #性能优化 #数据库 #技术分享 #学习笔记

在大数据领域，数据的处理和分析是企业决策和业务优化的核心。随着数据量的不断增长和数据类型的多样化，企业面临着如何高效处理和分析这些数据的挑战。Python 作为一种灵活、易于学习且功能强大的编程语言，逐渐成为大数据开发中不可或缺的工具。从数据采集、清洗、分析到机器学习，Python 在大数据开发的各个环节中都扮演了重要角色。本文将探讨 Python 在大数据开发中的应用及其优势，并介绍一些常见的使用场景和工具。

#Python #大数据 #数据分析 #机器学习 #数据处理 #技术分享 #学习笔记

Flink 在大数据开发中的应用

July 21, 2024

在现代大数据开发中，实时数据处理变得愈发重要。无论是金融服务中的实时风控，还是电商平台的个性化推荐，企业都需要对实时数据进行处理，以便做出快速决策。Apache Flink 作为一个分布式流处理框架，以其高性能、低延迟和强大的状态管理功能，逐渐成为实时数据处理的首选解决方案。本文将详细介绍 Flink 在大数据开发中的应用，并探讨其在实际业务场景中的使用优势。

#flink #大数据 #实时计算 #流处理 #数据分析 #技术分享 #学习笔记

Github 的一些操作沟通中的缩写

July 10, 2024

之前使用github的时候，很少和别人合作过，都只是用来clone别人的代码，或者把自己的项目push上去，最近想把自己的blog推上astro-cn，提交PR的过程中，发现很多有意思的“黑话”缩写，网上查了一下，还有不少，所以，就粘贴过来，挺有意思的。

#Github #编程 #开源 #协作 #学习笔记 #技术分享

【数据质量】使用Sifflet 获得可靠的数据

June 9, 2024

最近在看国外最近都有哪些新的大数据相关技术，无意中发现Sifflet这个工具，简单研究了下，结合海外的其他文章写点总结

#大数据 #Sifflet #数据质量 #数据监控 #数据分析 #数据仓库 #技术分享 #学习笔记