Skip to content

Archives

All the articles I've archived.

2024 20
October 1
  • 面对网络“公知”的胡言乱语:如何保持清醒?

    Published: at 16:33

    在自媒体时代,人人都能轻松发声,导致了大量缺乏逻辑、为流量制造噱头的言论充斥网络,严重影响普通人的情绪和认知。本文探讨了这种现象背后的根源,分析了信息不对称和情绪操控的常见手段,并提出了几种应对策略:保持理性、独立思考、批判性看待信息来源,保护自己的认知边界,避免成为虚假言论的情绪俘虏。

September 8
  • Flink 在大数据开发中的应用(实时数据分析和处理)

    Published: at 16:29

    在当今快节奏的商业环境中,实时数据分析成为企业获取竞争优势的关键能力。通过对实时数据进行分析,企业可以快速应对市场变化、做出更精准的业务决策。无论是金融、零售还是物联网领域,实时数据流的处理需求愈发重要。Apache Flink,作为一款开源的分布式流处理框架,以其强大的实时数据处理能力和低延迟特性,在大数据实时分析领域备受推崇。本文将详细介绍 Flink 在实时数据分析与处理中的应用,结合 PyFlink 和 Flink SQL 的实操步骤,帮助开发者快速掌握 Flink 的实时流处理技巧。

  • Hive表中数据倾斜的处理方法

    Published: at 14:24

    在 Hive 表中,数据倾斜 是大数据处理中的常见问题,尤其在执行 JOIN、GROUP BY、DISTINCT 等操作时,某些键值的数据分布不均匀,导致某些计算节点负载过重,任务执行变慢甚至失败。以下是处理 Hive 表数据倾斜的常见方法:

  • 【离线数仓】我们为什么需要拉链表【与快照表的对比】

    Published: at 10:39

    快照表和拉链表是两种用于存储数据历史的常见表结构,它们的目的都是记录数据的变化,但实现方式和适用场景有所不同。下面从多个角度对比它们,解释为什么在某些情况下需要使用拉链表。

  • 【离线数仓】拉链表的3种构建方案

    Published: at 10:46

    前面说到了拉链表的应用场景,但在我们构建拉链表的时候,往往是从快照表中构建数据的,我接下来会基于介绍3种经验方案,用来提供给大家更多的参考。

  • 人工智能真的在帮助人类进步吗?(我对AI未来发展的担忧)

    Published: at 01:54

    近期,我们明显感受到人工智能创作的内容遍布各个角落。从文稿至图像,再到视频制作,其速度之快令人咋舌。虽然看似无关痛痒,但实际上背后隐藏诸多问题。人工智能所产出的内容日益增多,不禁让人忧虑互联网的未来将走向何方。

  • 作为前员工,对阿里瓴羊业务的理解

    Published: at 13:57

    在国内,过去几年中大数据底层技术的发展并没有发生显著变化,很多服务提供商的产品同质化严重,竞争也集中在价格和短期服务上。然而,仅靠短期的项目或服务维持盈利显然是不现实的,企业必须为客户提供长期、持续的服务,才能建立真正的竞争优势。鉴于我也曾经是瓴羊的一分子,我认为瓴羊的未来发展需要从多个层面进行优化与调整。

  • 数据湖与数据仓库:两种核心数据存储方式的深度解析与差异

    Published: at 10:31

    最近有一些朋友在问我,数据湖和数据仓库有什么区别和关系,一开始我是觉得这个事情压根不需要一篇博客来解释,昨天又有人在问,我想了下,还是话点时间来解释下

  • 离线数据中台的数据安全策略实践

    Published: at 01:29

    在数字化时代,数据成为了企业的核心资产,而如何保障这些资产的安全成为了亟待解决的问题。离线数据中台,作为企业数据资产管理的重要环节,其数据安全策略的实践显得尤为重要。今天,我们就来聊聊这个话题,知其然,更要知其所以然。

July 6
  • Flink 在大数据开发中的应用

    Published: at 16:20

    在现代大数据开发中,实时数据处理变得愈发重要。无论是金融服务中的实时风控,还是电商平台的个性化推荐,企业都需要对实时数据进行处理,以便做出快速决策。Apache Flink 作为一个分布式流处理框架,以其高性能、低延迟和强大的状态管理功能,逐渐成为实时数据处理的首选解决方案。本文将详细介绍 Flink 在大数据开发中的应用,并探讨其在实际业务场景中的使用优势。

  • Github 的一些操作沟通中的缩写

    Published: at 15:13

    之前使用github的时候,很少和别人合作过,都只是用来clone别人的代码,或者把自己的项目push上去,最近想把自己的blog推上astro-cn,提交PR的过程中,发现很多有意思的“黑话”缩写,网上查了一下,还有不少,所以,就粘贴过来,挺有意思的。

  • Python 在大数据开发中的应用

    Published: at 16:15

    在大数据领域,数据的处理和分析是企业决策和业务优化的核心。随着数据量的不断增长和数据类型的多样化,企业面临着如何高效处理和分析这些数据的挑战。Python 作为一种灵活、易于学习且功能强大的编程语言,逐渐成为大数据开发中不可或缺的工具。从数据采集、清洗、分析到机器学习,Python 在大数据开发的各个环节中都扮演了重要角色。本文将探讨 Python 在大数据开发中的应用及其优势,并介绍一些常见的使用场景和工具。

  • 《草台班子是如何运行的?——陈一枝》观后感

    Published: at 03:39

    最近看了油管上的这个视频,很有趣,因为我在国内的某个大厂工作过一段时间,参与的项目大大小小也有一些,所以,这个视频我反复看了好几遍,内容虽然毫无客观可言,但基本上都对上了我的经历,所以分享出来给大家乐和乐和。

  • 如何在Astro Markdown博客中插入视频,让其自适应页面大小

    Published: at 02:36

    最近在博客中插入了一个youtube视频,pc端看起来似乎很正常,只是页面不是很居中,想想也不是大事情,就无所谓了,直到我前两天用手机打开博客,发现这个视频把我整个页面给撑起来了。根本无法看,所以简单研究了一下,自适应视频的宽度,达到页面的美观(非前端出身,大佬求放过)

  • 对当下AI的理解及想法1:中国不会在AI领域有世界领先的发展

    Published: at 23:25

    AI当前真的是如火如荼啊,到处都充斥着新技术和新突破,在我有限的认知下,我谈谈我自己的一些想法。

June 4
  • 【数据安全】离线数仓的数据安全理解(未完待续)

    Published: at 16:54

    数据安全在离线数据仓库(离线数仓)中尤为重要,因为它涉及到大量敏感数据的存储、处理和分析。离线数仓通常用于存储历史数据和进行复杂的批量处理,因此需要采取严格的安全措施来保护数据的完整性和机密性。

  • 【数据质量】使用Sifflet 获得可靠的数据

    Published: at 02:17

    最近在看国外最近都有哪些新的大数据相关技术,无意中发现Sifflet这个工具,简单研究了下,结合海外的其他文章写点总结

  • 关于中文输入方式的问题——我现在是如何打字的

    Published: at 01:43

    作为一名从事数据行业多年的人,我相信现在所有的云输入法,如搜狗、百度、QQ等,他们都一定会收集你的输入信息,这点我深信不疑,所以在前几年我为了保护下自己隐私,同时也改一改我的“二指禅”的毛病,决定研究下更高效安全的文字输入问题。

  • 我是如何考虑个人博客这件事情的

    Published: at 08:00

    人博客这个事情,早在十几年前,我还是一名学生的时候就已经在做了,但总是坚持不下来,到现在来来回回,折腾了好几次这个事情了,那个时候穷,没钱买域名,也没钱买服务器,基本上能白嫖的绝不花钱,加上其实当时也没有多少东西可以分享的,毕竟只是一名学生嘛,就算想写点什么,那估计也是没有什么实质内容的胡扯(当然,我现在也觉得自己也总是在胡扯),所以感兴趣的朋友就随便看看,切勿认真。

March 1
2021 4
December 4
  • 【Redash官方文档】用户指南-入门

    Published: at 20:46

    您需要做的第一件事情是连接数据源。您可以通过单击设置图标打开数据源管理页面:

  • 【Redash官方文档】用户指南-创建和编辑查询

    Published: at 20:53

    在大多数情况下,我们使用数据源的原生查询语言。

  • 【Redash官方文档】用户指南-查询-查询参数

    Published: at 21:07

    使用查询参数,您可以在运行时将值替换到你的查询语句中,而无需再次编辑查询语句。Redash使用双花括号来定义需要替换的参数`{{ }}`,只要在字符串中出现被双花括号包裹的,都将被视为参数。并会在查询窗格上方出现一个小部件,以便于您更改参数值。

  • 【Redash官方文档】用户指南-查询-查询现有查询结果

    Published: at 20:58

    查询结果数据源(QRDS)可以查询从其他数据源的结果。使用它来连接来自多个数据库的数据。Redash 使用内存中的SQLite数据库来实现这一点。因此,如果Redash内存不足,对大型结果集的查询可能会失败。

2018 1
December 1
  • 堡垒机ssh通道常驻【现网连数据库】

    Published: at 08:00

    为了数据安全,大多数据库不对外网开放,本地机器如果需要连接数据库,基本都是通过ssh通道的方式来连接。这个会让我们日常工作带来一些效率上的困扰: